python

深入理解python编解码

unicode

Unicode 可以表示不同的语言，同時，不同的编码也都可以和 Unicode进行转换。
str1.decode(‘utf8’): 表示把utf8编码的str1转换为unicode
str2.encode(‘utf8’): 表示把unicode编码的str2转换为utf8

备注: 可以把unicode理解成一种中间编码形式

python

# -*- coding: utf-8 -*-或者#coding=utf8：指定文件编码方式（其实是在告诉解释器“我的编码格式是utf8）,如果没有此声明,python默认以ASCII编码去处理,啊、但是没法处理非ascii编码的
有时候即使声明了1. , 对于外面引入或者抓取的文件仍然乱码的时候，即page = f.read()，page是str类型，但是page里的某些符号等可能是unicode，此时，需要先对此文件解码处理，文件.decode(‘utf8’)
更改系统的默认编码：

        import sys
        reload(sys)
        sys.setdefaultencoding('utf8')

其他

打印系统编码：

    env |grep -i lang

版权申明

本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。转载文章请注明原文出处。