[Python笔记] 文件操作之buffering

@lianst  November 1, 2018

buffer缓冲区

buffer缓冲区是内存上的一个空间,一般爱说是一个FIFO队列,当达到缓冲区阀值或者缓冲区满了之后,数据才会flush到磁盘(也就是常说的落到磁盘上)

buffering是缓冲区的意思,与cache缓存是不一样的。-1表示hi用缺省值大小的buffer,如果是二进制模式,使用io.DEFAULT_BUFFER_SIZE值,默认是4096或者8192.如果是文本模式在终端设备下是行缓存方式,如果不是则使用二进制模式的策略。

释义
0只能在二进制模式使用,表示关闭buffer
1只能在文本模式下使用,表示使用行缓冲,剪刀换行符就flush
>1用于指定buffer的大小
flush()将缓冲区数据写入磁盘
close()关闭前会调用flush
io.DEFAULT_BUFFER_SIZE缺省缓冲区大小,字节

二进制模式

In [123]: import io                                                                                                 

In [124]: f = open('test4','w+b')                                                                                   

In [125]: print(io.DEFAULT_BUFFER_SIZE)   # 默认buffering                                                                         
8192

In [126]: f.write('lianst.com'.encode())                                                                            
Out[126]: 10

In [127]: cat test4                                                                                                 

In [128]: f.seek(0)                                                                                                 
Out[128]: 0

In [129]: cat test4                                                                                                 
lianst.com
In [130]: f.write('www.lianst.com'.encode())                                                                        
Out[130]: 14

In [131]: f.flush()                                                                                                 

In [132]: f.close()                                                                                                 

In [133]: f = open('test4','w+b',4)   # 设置buffering为4个字节                                                                              

In [134]: f.write(b'lst')    # 先写入3个字节                                                                                      
Out[134]: 3

In [135]: cat test4        # 此时buffering还没有满也没有到阀值                                                                                     

In [136]: f.write(b'shi')      # 再写入3个字节就达到阀值了,慢了就自动flush到磁盘了                                                                                   
Out[136]: 3

In [137]: cat test4                                                                                                 
lst
In [138]: f.close()     

文本模式

In [141]: f = open('test4','w+',1)   # 1的时候使用行缓冲,见到换行符就缓冲                                                                               

In [142]: f.write('lst')                                                                                            
Out[142]: 3

In [143]: cat test4                                                                                                 

In [144]: f.write('lianst'*4)                                                                                       
Out[144]: 24

In [145]: cat test4                                                                                                 

In [146]: f.write('\n')                                                                                             
Out[146]: 1

In [147]: f.write('hello\nPython')                                                                                  
Out[147]: 12

In [148]: f.close()                                                                                                 

In [149]: cat test4                                                                                                 
lstlianstlianstlianstlianst
hello
Python
In [150]: f = open('test4','w+',15)    # 大于1,就使用默认的                                                                             

In [151]: f.write('lst')                                                                                            
Out[151]: 3

In [152]: cat test4                                                                                                 

In [153]: f.write('gekko')                                                                                          
Out[153]: 5

In [154]: f.write('hello\n')                                                                                        
Out[154]: 6

In [155]: cat test4                                                                                                 

In [156]: f.write('\npython')                                                                                       
Out[156]: 7

In [157]: cat test4                                                                                                 

In [158]: f.write('a'*(io.DEFAULT_BUFFER_SIZE - 20))                                                                
Out[158]: 8172

In [159]: f.write('\nwww.lianst.com/about')                                                                         
Out[159]: 21

In [160]: cat test4                                                                                                 
lstgekkohello


In [161]: f.close()           

特殊二进制模式

In [163]: f = open('test4','wb+',0)                                                                                 

In [164]: f.write(b'm')                                                                                             
Out[164]: 1

In [165]: cat test4                                                                                                 
m
In [166]: f.write(b'a')                                                                                             
Out[166]: 1

In [167]: cat test4                                                                                                 
ma
In [168]: f.write(b'm')                                                                                             
Out[168]: 1

In [169]: cat test4                                                                                                 
mam
In [170]: f.write(b'a')                                                                                             
Out[170]: 1

In [171]: cat test4                                                                                                 
mama
In [172]: f.write(b'lian'*4)                                                                                        
Out[172]: 16

In [173]: f.write(b'\n')                                                                                            
Out[173]: 1

In [174]: cat test4                                                                                                 
mamalianlianlianlian

In [175]: f.write(b'Hello\nPython')                                                                                 
Out[175]: 12

In [176]: cat test4                                                                                                 
mamalianlianlianlian
Hello
Python
In [177]: f.close()     
buffering释义
buffering>1t和b,都是io.DEFAULT_BUFFER_SIZE
buffering=0b模式:关闭缓冲区;t模式:不支持
buffering=1b模式:1个字节;t模式:行缓冲,遇到换行符才flush
buffering>1b模式:表示行缓冲大小,缓冲区的值可以超过io.DEFAULT_BUFFER_SIZE,直到设定的值超出后才把缓冲区flush;t模式:是io.DEFAULT_BUFFER_SIZE,flush完后把当前字符串也写入磁盘。

看着比较麻烦,一般来说只需要记得如下总计:

  1. 文本模式,一般都用默认缓冲区大小;
  2. 二进制模式,是一个个字节的操作,可以指定buffer的大小;
  3. 一般来说,默认缓冲区大小是个比较好饿选择,除非明确知道,否则不会调整它;
  4. 一般变成中,明确知道需要写磁盘了,都会手动调用一次flush,而不是等到自动flush或者close的时候。

编码

encoding编码,仅仅在文本模式下使用。None表示使用缺省编码,依赖操作系统。windows和linux下面测试如下结果:

# windows 10 x64
>>> f = open('test1','w')
>>> f.write("连")
1
>>> f
<_io.TextIOWrapper name='test1' mode='w' encoding='cp936'>

# centos7
In [178]: f = open('test4','w')                                                                                     

In [179]: f.write("连")                                                                                             
Out[179]: 1

In [180]: f                                                                                                         
Out[180]: <_io.TextIOWrapper name='test4' mode='w' encoding='UTF-8'>

其他参数

erroes:什么样额编码错误都将会被捕获;
None和strict:表示有编码错误将抛出ValueError异常;ignore表示忽略
newline:文本模式中,换行的转换。可以为None、''、'r'、'n'、'rn'。
读的时候,None表示'r'、'n'、'rn'都被转换为'n';表示不会自动换换通用换行符;其他合法字符表示换行符就是指定字符,就会按照指定字符分行。
写的时候,None表示'n'都会被替换为系统缺省行分隔符os.linesep;'n'或者''表示'n'不替换;其他合法字符表示'n'会被替换为指定的字符
closefd:关闭文件描述符,True表示关闭它,False会在文件关闭后保持这个描述符。
flieobj.fileno()查看

red

read(size=-1),size表示读取的多少个字节或者字符;负数或者None表示读取到EOF

# 文本
In [1]: f = open('test4','r+',0)                                                                                    
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-1-da25c98625a5> in <module>
----> 1 f = open('test4','r+',0)

ValueError: can't have unbuffered text I/O

# 二进制
In [5]: f = open('test4','rb+')                                                                                     

In [6]: f.read(7)                                                                                                   
Out[6]: b'\xe8\xbf\x9e'

In [7]: f.read(1)                                                                                                   
Out[7]: b''

In [8]: f.close()  

行读取

readlines(size=-1),一行行读取恩见内容,size设置一次能读取行内几个字符或者字节
readlines(hint=-1),读取所有行的列表,指定hint则返回指定的行数。

write

write(s),把字符串s写入到文件中并返回字符的个数

close

flush并关闭文件对象,文件已经关闭,再次关闭没有任何效果

其他

seekable():是否可seek
readable():是否可读
writable():是否可写
closed:是否已经关闭


添加新评论