[qa:47789] Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: anonymouse
日時: 2007-04-28 06:32:25
IPアドレス: 66.7.192.*

>>47787
> # >>46540 の話題の時に、例を示して下さっています。
具体例は >>46528 ですが、
> 今問題になっている khm のケースでは、文字の合成(A と umlaut から
> A-umlaut を生成する等)を伴うので、文字コードだけの問題ではありません。
> まずそのことをご了承ください。
ごめんなさい。この方法は、フォント中の一つのグリフが、一つ又は複数の
文字に対応する時には使えますが、複数のグリフが、一つ又は複数の文字に
対応する時には使えませんでした。
やはり、現状では、フォントを作り替えるのが、唯一の方法かも知れません。

# tagged-PDF では、任意のグリフ列に対して、文字列を対応させる事が可能ですが、
# >>46540 では、私自身、勘違いしていましたが、
# 通常の PDF と異なり、空白文字を明示的に、示す必要があります。
# dvi ドライバにより生成された、PDF には、DVI と同じく、空白文字は存在せず、
# 単語を間隔を開けて配置してあるだけですから、tagged-PDF の規格に合わせる
# ためには、現在ブラウザが行っているように、フォントメトリックから、空白文字を
# 推定する作業が必要になります。これは、精度は結構高いものの、dvi ドライバの
# ソフトウェアとしての信頼性の観点からは不適切な処理ではないかなと、思います。
この書き込みへの返事：