问题
之前在使用Python2的时候,经常会遇到编码相关的错误,异常头疼。主要是因为Python2字符串设计上有一些固有的缺陷:
- 使用 ASCII 码作为默认编码方式,对中文处理很不友好。
- 把字符串的牵强地分为 unicode 和 str 两种类型,误导开发者
与Python2不同,Python3默认使用utf-8
编码方式,并且Python3的字符主要由两种:str
/byte
。因此正常情况下,Python3很少出现编码问题,但是最近在使用docker的时候,又发生了两次编码错误问题,分别是因为:
- docker环境(或当前命令行环境的默认编码不是
utf-8
) - 处理的文件默认编码不是
utf-8
,而是ascii
解决方法
问题1
针对这两个可能的原因,首先判断系统的(或者当前命令行环境的)编码:1
2
3
4首先进入python环境
import sys
sys.stdout.encoding
>> 'US-ASCII'
这种情况下表示,当前的命令行的编码是ascii
,所以需要手动改成utf-8:1
export LANG="en_US.UTF-8"
如果是在ubuntu环境下,可以将上面这行命令加入~/.bashrc
中一劳永逸解决问题,加入后运行下面命令使其生效或者重启生效。1
source ~/.bashrc
或者另一种方法是,只针对python设定相应编码(同上,命令行运行或者加入bashrc文件):1
2PYTHONIOENCODING='utf_8'
export PYTHONIOENCODING
最后,还有一种针对docker中使用Python3报编码错误的方法:1
docker run -e PYTHONIOENCODING=utf-8 docker-image-name some-command
问题2
如果上面系统输出的已经是UTF-8
,另一个可能的原因是读写的文件默认编码是ASCII
。比如在使用json.dump()
命令时,如果使用了其中的ensure_ascii=False
关键字,而此时如果写入尝试写入非ascii的字符时就会报上面的错误,解决办法是提前指定操作文件的编码方法:
1 | import json |
参考
https://blog.csdn.net/th_num/article/details/80685389
https://foofish.net/how-python3-handle-charset-encoding.html