pypdfでPDFを読む

pypdf は Python で書かれたPDFライブラリである。pip install pypdf で入る。pypdf を使ったコマンドラインツール pdfly もある。こちらは pip install pdfly で入る。

pypdf でローカルのPDFファイルを読んでテキストを標準出力に出力する:

#! /usr/bin/env python3

import sys
from pypdf import PdfReader

for arg in sys.argv[1:]:
    reader = PdfReader(arg)
    number_of_pages = len(reader.pages)
    for i in range(number_of_pages):
        page = reader.pages[i]
        text = page.extract_text()
        print(text)