读取pandas数据框的前几行的方法

发布于 2021-01-29 17:05:52

是否有内置的方法可用于read_csv仅读取n文件的前几行而无需提前知道行的长度?我有一个大文件,需要花费很长时间才能读取,偶尔只想使用前20行来获取它的样本(并且不希望加载完整的文件并花大头)。

如果我知道总行数,则可以执行类似的操作footer_lines = total_lines - n并将其传递给skipfooter关键字arg。我当前的解决方案是n使用python和StringIO手动将第一行抓取到熊猫:

import pandas as pd
from StringIO import StringIO

n = 20
with open('big_file.csv', 'r') as f:
    head = ''.join(f.readlines(n))

df = pd.read_csv(StringIO(head))

并没有那么糟,但是有没有更简洁的“ pandasic”(?)方式来处理关键字或其他内容呢?

关注者
0
被浏览
39
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    我认为您可以使用该nrows参数。从文档

    nrows : int, default None
    
        Number of rows of file to read. Useful for reading pieces of large files
    

    这似乎有效。使用标准大型测试文件之一(988504479字节,5344499行):

    In [1]: import pandas as pd
    
    In [2]: time z = pd.read_csv("P00000001-ALL.csv", nrows=20)
    CPU times: user 0.00 s, sys: 0.00 s, total: 0.00 s
    Wall time: 0.00 s
    
    In [3]: len(z)
    Out[3]: 20
    
    In [4]: time z = pd.read_csv("P00000001-ALL.csv")
    CPU times: user 27.63 s, sys: 1.92 s, total: 29.55 s
    Wall time: 30.23 s
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看