pypdf は Python で書かれたPDFライブラリである。pip install pypdf
で入る。pypdf を使ったコマンドラインツール pdfly もある。こちらは pip install pdfly
で入る。
pypdf でローカルのPDFファイルを読んでテキストを標準出力に出力する:
#! /usr/bin/env python3 import sys from pypdf import PdfReader for arg in sys.argv[1:]: reader = PdfReader(arg) number_of_pages = len(reader.pages) for i in range(number_of_pages): page = reader.pages[i] text = page.extract_text() print(text)