[qa:47787] PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: ZR
日時: 2007-04-28 02:33:28
IPアドレス: 59.140.98.*

>>47785
>>47784

すみません。文脈の説明抜きで書いてしまいました。

今問題になっている khm のケースでは、文字の合成(A と umlaut から
A-umlaut を生成する等)を伴うので、文字コードだけの問題ではありません。
まずそのことをご了承ください。

(>>47783)
>テキスト情報の問題に関しては無力なんですね。フォントの中ではグリフと
>符号位置(Type1 ではグリフ名?)が不可分になっていて、現在のところ、PDF 出力
そして、この中の「符号位置」とはフォントの中(DVI の中でなく)のもののこと
(Unicode フォントなら Unicode 値)です。Reencoding により、DVI の符号位置と
グリフとの関係は変わるが、PDF 中のテキストの符号位置は変わらないと
考えていたわけです。

(>>47785)
>dvipdfmx の場合ならば、CMap を作れば良いのでは？

「Unicode への変換を記した CMap」を用意すれば、dvipdfmx は(フォント中の
符号データでなく)そちらを使ってくれるというわけですね。
ようやく理解しました。

# >>46540 の話題の時に、例を示して下さっています。

この書き込みへの返事：