彻底教你解决python中编码问题

off999 2024-11-25 15:56 55 浏览 0 评论

我们在使用python开发的过程中，编码问题是很常见，但是又很头疼问题。尤其以python2最为严重，虽然在python3中有所修改，但仍然是很多 Python 开发者的噩梦，无论你是工作多年的Python开发者，还是初学python的开发者。而碰到这种问题，我们经常是花费大力气，Google、百度、论坛、博客，非常欣慰的解决了问题，但是在下一次再遇到同样的问题，又要重复以上过程。下面我就总结一下python的编码问题，一定要收藏哦

Python 3 中 str 与 bytes

在 Python3中，字符串有两种类型，str和bytes。

unicode string（str 类型）：以 Unicode code points 形式存储，人类认识的形式
byte string（bytes 类型）：以 byte 形式存储，机器认识的形式

在 Python 3 中你定义的所有字符串，都是 unicode string类型，使用 type 和 isinstance 可以判别

# python3
>>> str_obj = "你好"
>>> type(str_obj)
<class 'str'>
>>> isinstance("你好", str)
True
>>> isinstance("你好", bytes)
False

bytes是一个二进制序列对象，只要在定义字符串时前面加一个b，就表示bytes类型的字符串对象。

# python3
>>> byte_obj = b"Hello World!"
>>> type(byte_obj)
<class 'bytes'>
>>> isinstance(byte_obj, str)
False
>>> isinstance(byte_obj, bytes)
True

但是在定义中文字符串时，如果直接加上b，就会报错，应该使用encode转码一下。

>>> byte_obj=b"你好"
  File "<stdin>", line 1
SyntaxError: bytes can only contain ASCII literal characters.
>>> str_obj="你好"
>>> str_obj.encode("utf-8")
b'\xe4\xbd\xa0\xe5\xa5\xbd'

Python 2 中 str 与 unicode

在Python2里，字符串也只有两种类型，unicode和str。

只有 unicode object 和非unicode object其实应该叫 str object）的区别：

unicode string（unicode类型）：以Unicode code points形式存储，人类认识的形式
byte string（str 类型）：以byte形式存储，机器认识的形式

当我们直接使用双引号或单引号包含字符的方式来定义字符串时，就是 str 字符串对象

# python2
>>> str_obj="你好"
>>> type(str_obj)
<type 'str'>
>>> isinstance(str_obj, bytes)
True
>>> isinstance(str_obj, str)
True

而当我们在双引号或单引号前面加个u，就表明我们定义的是 unicode 字符串对象

# python2
>>> unicode_obj = u"你好"
>>> type(unicode_obj)
<type 'unicode'>
>>> isinstance(unicode_obj, bytes)
False
>>> isinstance(unicode_obj, str)
False

如何检测对象的编码

所有的字符，在 unicode 字符集中都有对应的编码值（英文叫做：code point）

把这些编码值按照一定的规则保存成二进制字节码，就是我们说的编码方式，常见的有：UTF-8，GB2312 等。

也就是说，当我们要将内存中的字符串持久化到硬盘中的时候，都要指定编码方法，而反过来，读取的时候，也要指定正确的编码方法（这个过程叫解码），不然会出现乱码。

那问题就来了，当我们知道了其对应的编码方法，我们就可以正常解码，但并不是所有时候我们都能知道应该用什么编码方式去解码？

这时候就要用到python的库--chardet ，需要单独安装

python3 -m pip install chardet

chardet有一个detect方法，可以预测其编码格式

>>> import chardet
>>> chardet.detect('今天天气很不错'.encode('gbk'))
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

为什么说是预测呢，通过上面的输出来看，我们看到有一个confidence字段，表示预测的可信度。

既然是预测，那么如果样本数越多，当然预测就越接近真实值，若你的字符数较少，就有可能出现预测失误，举例如下：比如只有中文两个字，就像下面这样，我们是使用 gbk 编码的，使用 chardet 却识别成 KOI8-R 编码。

>>> str_obj = "中文"
>>> byte_obj = bytes(a, encoding='gbk')  # 先得到一个 gbk 编码的 bytes
>>> chardet.detect(byte_obj)
{'encoding': 'KOI8-R', 'confidence': 0.682639754276994, 'language': 'Russian'}
>>> str_obj2 = str(byte_obj, encoding='KOI8-R')
>>> str_obj2
'жпнд'

中文字符，而且我们使用的gbk进行编码，但是预测出来却是俄语，KOI8-R编码。所以为了编码诊断的准确，要尽量使用足够多的字符。

chardet 支持多国的语言，从官方文档中可以看到支持如下这些语言(https://chardet.readthedocs.io/en/latest/supported-encodings.html)

编码与解码的区别

编码和解码，其实就是str与bytes的相互转化的过程，我们这里只说python3的

编码：encode方法，把字符串对象转化为二进制字节序列
解码：decode方法，把二进制字节序列转化为字符串对象

如果我们知道一串字符串的编码格式，如何来转成unicode呢？

有两种方法

第一种是，直接使用 decode 方法

>>> byte_obj.decode('gbk')
'中文'

第二种是，使用 str 类来转

>>> str_obj = str(byte_obj, encoding='gbk')
>>> str_obj
'中文'

如何设置文件编码

在Python 2中，默认使用的是 ASCII 编码来读取的，因此，我们在使用Python 2的时候，如果你的python文件里有中文，运行是会报错的。

SyntaxError: Non-ASCII character '\xe4' in file demo.py

原因就是 ASCII 编码表太小，无法解释中文。

而在 Python 3 中，默认使用的是 uft-8 来读取，所以省了不少的事。

对于这个问题，通常解决方法有两种：

第一种方法

在 python2 中，可以在文件头部指定编译器读取源码时采取的编码和解码方式

# -*- coding: utf-8 -*- 
# coding:utf-8
# coding=utf-8

以上三种书写方式，任选一种即可

第二种方法

import sys 

reload(sys) 
sys.setdefaultencoding('utf-8')

这里在调用sys.setdefaultencoding(‘utf-8’) 设置默认的解码方式之前，执行了reload(sys)，这是必须的，因为python在加载完sys之后，会删除 sys.setdefaultencoding 这个方法，我们需要重新载入sys，才能调用 sys.setdefaultencoding 这个方法。