PyMuPDFでPDFを読む

PyMuPDFは、GhostscriptをメンテしているArtifexが作っているMuPDFのPythonバインディングです。pip install PyMuPDF でインストールできます。ライブラリ名はPyMuPDFですが、パッケージ名は fitz です。GitHubのPyMuPDF詳しいドキュメントもあります。次のように使います。

import fitz

with fitz.open("filename.pdf") as doc:
    for page in doc:
        text = page.get_text()
        print(text)