MarkItDownで何でもMarkdownに変換

MarkItDown は2024年末に出たばかりのMicrosoft謹製のMarkdown変換ツールです。PDFやOffice文書だけでなく、画像、音声、HTML、CSV、JSON、XMLといったものをMarkdownに変換できるとのことです。

pip install markitdown で入ります。同時に、beautifulsoup4mammothmarkdownifynumpyopenpyxlpandaspathvalidatepdfminer-sixpuremagicpydubpython-pptxrequestsspeechrecognitionyoutube-transcript-api が(入っていなければ)インストールされます。

CLIツール markitdown がインストールされますので、通常は markitdown ファイル名 と打ち込むだけで標準出力にMarkdown形式で出力されます(ファイル名を与えなければ標準入力からの入力になります)。ファイルに出力するには markitdown ファイル名 > output.md のようにリダイレクトします。

Pythonからの使い方は

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

です。