PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: ZR
日時: 2007-04-28 02:33:28
IPアドレス: 59.140.98.*

>>47785 >>47784 すみません。文脈の説明抜きで書いてしまいました。 今問題になっている khm のケースでは、文字の合成(A と umlaut から A-umlaut を生成する等)を伴うので、文字コードだけの問題ではありません。 まずそのことをご了承ください。 (>>47783) >テキスト情報の問題に関しては無力なんですね。フォントの中ではグリフと >符号位置(Type1 ではグリフ名?)が不可分になっていて、現在のところ、PDF 出力 そして、この中の「符号位置」とはフォントの中(DVI の中でなく)のもののこと (Unicode フォントなら Unicode 値)です。Reencoding により、DVI の符号位置と グリフとの関係は変わるが、PDF 中のテキストの符号位置は変わらないと 考えていたわけです。 (>>47785) >dvipdfmx の場合ならば、CMap を作れば良いのでは? 「Unicode への変換を記した CMap」を用意すれば、dvipdfmx は(フォント中の 符号データでなく)そちらを使ってくれるというわけですね。 ようやく理解しました。 # >>46540 の話題の時に、例を示して下さっています。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)