本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考,具体如下:
首先,这是一个比较粗糙的版本,因为已经够用了,而且对pdf的格式不熟悉,所以暂时没有进一步优化。
还有,这是转成txt的,所以如果是有图片的pdf是无法保存图片的。
至于本来就是图片的文本,这里是无法分析出来的。那些图片的pdf,估计要用图形匹配的方式来处理,类似于超速拍摄的车牌识别。
不过这样的程度,已经不是文本处理了。扯远了。。。
转出来的文字,好像按照pdf里面的所展示的来换行了,看不到有什么规则还原,我也不知道怎么处理,将就着用吧。
另外,初始代码是网上找的,最初地址不知道哪里了。
用到了第三方库pdfminier
pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k
下载后,用cmd执行命令 setup.py install
安装完之后打开eclipse会弹出要求加载一些东西,点击确定就行了。
再来看看代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
|
import os.path from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal,LAParams from pdfminer.pdfinterp import PDFTextExtractionNotAllowed class CPdf2TxtManager(): ''''' classdocs ''' def __init__( self ): ''''' Constructor ''' def changePdfToText( self , filePath): file = open (path, 'rb' ) # 以二进制读模式打开 #用文件对象来创建一个pdf文档分析器 praser = PDFParser( file ) # 创建一个PDF文档 doc = PDFDocument() # 连接分析器 与文档对象 praser.set_document(doc) doc.set_parser(praser) # 提供初始化密码 # 如果没有密码 就创建一个空的字符串 doc.initialize() # 检测文档是否提供txt转换,不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed # 创建PDf 资源管理器 来管理共享资源 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams = laparams) # 创建一个PDF解释器对象 interpreter = PDFPageInterpreter(rsrcmgr, device) pdfStr = '' # 循环遍历列表,每次处理一个page的内容 for page in doc.get_pages(): # doc.get_pages() 获取page列表 interpreter.process_page(page) # 接受该页面的LTPage对象 layout = device.get_result() # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性, for x in layout: if ( isinstance (x, LTTextBoxHorizontal)): pdfStr = pdfStr + x.get_text() + '\n' fileNames = os.path.splitext(filePath) file2 = open (fileNames[ 0 ] + '.txt' , 'wb' ) #保存这些内容 file2.write(pdfStr.encode()) file2.close() file .close() if __name__ = = '__main__' : ''''' 解析pdf 文本,保存到txt文件中 ''' path = r 'C:\Users\Administrator\Desktop\《精力管理》.pdf' pdf2TxtManager = CPdf2TxtManager() pdf2TxtManager.changePdfToText(path) |
希望本文所述对大家Python程序设计有所帮助。
原文链接:http://blog.csdn.net/u012175089/article/details/69267037