[qa:47910] Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: 栗山雅俊
日時: 2007-05-09 16:43:23
IPアドレス: 133.87.1.*

>>47865 >>47864
>>47856 >>47854
>>47852

Takashimaさん，ZRさん，コメントありがとうございます。
レス遅れてすみません。

まだ自分で「追試」が出来ていないのですが，だいたいの
考え方として，

（1）Takashimaさんの方法はOpenTypeフォントを使う
       方法で，元々適正なUnicode値（グリフ名など）を
       持っているため，「問題」は起こらない

（2）CMapを使う場合はグリフ名を「自由に」変える
      ことが出来るので，Unicodeと異なるグリフ名を持つ
      Type1フォントも「修正」可能である

ということで正しいでしょうか。

どちらの方法でもPDFでのコピー & ペーストを実現できる
ようなので，ノウハウとしてどこかで纏めておきたいと
思っています。

>    いちいちフォント毎に CMap を書くことになるのなら、フォントの
>    グリフ名を変えた方がよいかも? (ライセンス上の問題がない場合)

Type1のほうは，そのうち配布者が直してくれるのを気長に
待つという手もあるかも知れません。
# TeX-Gyreの文書ではType1はもはやobsoleteだとアドビが
# 言っているという話もありますが...

この書き込みへの返事：