如何从PDF文件中提取文本?

发布于 2021-02-02 23:13:23

我正在尝试使用提取此 PDF文件中包含的文本Python

我正在使用PyPDF2模块,并具有以下脚本:

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

运行代码时,得到以下输出,该输出与PDF文档中包含的输出不同:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

如何提取PDF文档中的文本?

关注者
0
被浏览
94
1 个回答
  • 面试哥
    面试哥 2021-02-02
    为面试而生,有面试问题,就找面试哥。

    要从PDF提取文本,请使用以下代码

    import PyPDF2
    pdfFileObj = open('mypdf.pdf', 'rb')
    
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    
    print(pdfReader.numPages)
    
    pageObj = pdfReader.getPage(0)
    
    a = pageObj.extractText()
    
    print(a)
    


  • 面试哥
    面试哥 2021-02-02
    为面试而生,有面试问题,就找面试哥。

    正在寻找适用于python 3.x和Windows的简单解决方案。不幸的是,textract似乎并没有提供支持,但是如果您正在寻找针对Windows / python 3的简单解决方案,请签出tika软件包,真的可以直接阅读pdf。

    Tika-Python是与Apache Tika™REST服务结合的Python,允许在Python社区中本地调用Tika。

    from tika import parser
    
    raw = parser.from_file('sample.pdf')
    print(raw['content'])
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看