python读取中文txt文本的方法_Python

python读取中文txt文本的方法

2021-01-31 00:11jingyi130705008 Python

下面小编就为大家分享一篇python读取中文txt文本的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

对于python2.7

字符串在Python2.7内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码成unicode，再从unicode编码成另一种编码。

先用一些编辑器（如editplus ）看一下你的txt文件保存的是utf-8，还是gb2312或其他的。当你读行时可以这样

1 2	`line = (file1.readline()).decode('utf-8').encode('gb2312')或` `line = (file1.readline()).decode('gb2312').encode('utf-8')`

注意：txt使用utf8编码的时候会默认在文件开头插入三个不可见字符。这个是windows用来判断txt编码是否为utf8的。所以如果你直接使用decode('utf-8')的话是得不到正确结果的。

必须先判断前三个字符是否是windows插入的那三个。这个python已经定义了一个常量了，可以直接和这个常量比较，如果一样就删除前三个字符然后再decode。

									import codecs 

									 data = open("Test.txt").read() 

									 if data[:3] == codecs.BOM_UTF8:  

									  data = data[3:] 

									  print data.decode("utf-8")

延伸：

因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；

如果设置为ignore，则会忽略非法字符；

如果设置为replace，则会用?取代非法字符；

如果设置为xmlcharrefreplace，则使用XML的字符引用。

对于Python3

python3下比较简单,打开的时候指定encoding参数即可：open("txt.txt", encoding="gbk").read()。

以上这篇python读取中文txt文本的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持服务器之家。

原文链接：https://blog.csdn.net/jingyi130705008/article/details/71513984

python读取中文txt文本的方法

延伸 · 阅读

使用NumPy和pandas对CSV文件进行写操作的实例

Python的dict字典结构操作方法学习笔记

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在Windows系统上搭建Nginx+Python+MySQL环境的教程

python直接访问私有属性的简单方法

python 列表转为字典的两个小方法(小结)

python 插入Null值数据到Postgresql的操作

Python实现ping指定IP的示例

PyCharm设置SSH远程调试的方法

Python安装图文教程 Pycharm安装教程

python是什么意思？python有什么用？

使用Python抓取模板之家的CSS模板

Python 列表(List)操作方法详解