获取PDF中的可复制的文本信息

本文最后更新于 2026年4月8日早上

import PyPDF2
pdfFile = open(filePath, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFile)
page0=pdfReader.getPage(0)#获取第几页的内容
page1=pdfReader.getPage(1)
###########
text = page.extractText()  # 获得所有可复制的文本
text = re.sub("\\s", "", text)  # 去掉所有空格
###########