python流式讀取大文件的兩種方法
1、使用read方法分塊讀取
使用更底層的file.read()方法,與直接循環迭代文件對象不同,每次調用file.read(chunk_size)會直接返回從當前位置往后讀取chunk_size大小的文件內容,不必等待任何換行符出現。
defcount_nine_v2(fname):
"""計算文件里包含多少個數字'9',每次讀取8kb
"""
count=0
block_size=1024*8
withopen(fname)asfp:
whileTrue:
chunk=fp.read(block_size)
#當文件沒有更多內容時,read調用將會返回空字符串''
ifnotchunk:
break
count+=chunk.count('9')
returncount
2、利用生成器解耦代碼
可以定義一個新的chunked_file_reader生成器函數,由它來負責所有與“數據生成”相關的邏輯。
count_nine_v3里面的主循環就只需要負責計數即可。
defchunked_file_reader(fp,block_size=1024*8):
"""生成器函數:分塊讀取文件內容
"""
whileTrue:
chunk=fp.read(block_size)
#當文件沒有更多內容時,read調用將會返回空字符串''
ifnotchunk:
break
yieldchunk
defcount_nine_v3(fname):
count=0
withopen(fname)asfp:
forchunkinchunked_file_reader(fp):
count+=chunk.count('9')
returncount
使用iter(callable,sentinel)的方式調用它時,會返回一個特殊的對象,迭代它將不斷產生可調用對象callable的調用結果,直到結果為setinel時,迭代終止。
defchunked_file_reader(file,block_size=1024*8):
"""生成器函數:分塊讀取文件內容,使用iter函數
"""
#首先使用partial(fp.read,block_size)構造一個新的無需參數的函數
#循環將不斷返回fp.read(block_size)調用結果,直到其為''時終止
forchunkiniter(partial(file.read,block_size),''):
yieldchunk
以上就是Python流式讀取大文件的兩種方法,更多Python學習教程請關注IT培訓機構:千鋒教育。