获取PDF中的可复制的文本信息

1
2
3
4
5
6
7
8
9
import PyPDF2
pdfFile = open(filePath, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFile)
page0=pdfReader.getPage(0)#获取第几页的内容
page1=pdfReader.getPage(1)
###########
text = page.extractText() # 获得所有可复制的文本
text = re.sub("\\s", "", text) # 去掉所有空格
###########

例:PDF提取表格保存到Excel


获取PDF中的可复制的文本信息
https://xinhaojin.github.io/2022/04/14/获取pdf中的可复制的文本信息/
作者
xinhaojin
发布于
2022年4月14日
许可协议