pypdf は Python で書かれたPDFライブラリである。pip install pypdf で入る。pypdf を使ったコマンドラインツール pdfly もある。こちらは pip install pdfly で入る。
pypdf でローカルのPDFファイルを読んでテキストを標準出力に出力する:
#! /usr/bin/env python3
import sys
from pypdf import PdfReader
for arg in sys.argv[1:]:
reader = PdfReader(arg)
number_of_pages = len(reader.pages)
for i in range(number_of_pages):
page = reader.pages[i]
text = page.extract_text()
print(text)