[qa:47849] Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: 栗山雅俊
日時: 2007-05-03 02:00:54
IPアドレス: 220.156.83.*

>>47789

皆様，コメント頂きありがとうございます。

まだ頂いたコメントについて頭の整理ができていないのですが，
ZRさんからご呈示いただいた

>>47783
> 結局、"real font" を作るしかないのですかねえ……。

に対する解決案としてご教示いただいたものに絞ってコメント
申し上げます。

その解決策として，

（1）Takashimaさん >>47784
> otftotfmを使って、otf（たとえばLinuxLibertine）を使うようにすると
> どのようなencodingであっても、encファイルにunicode番号が書かれ
> dvipdfmxがpdfに対応表を埋め込んでくれるので、クリップボードに
> unicodeでコピーされます。

（2）anonymouseさん >>47785
> dvipdfmx の場合ならば、CMap を作れば良いのでは？

の二つがあるが，しかし

>>47789
> この方法は、フォント中の一つのグリフが、一つ又は複数の
> 文字に対応する時には使えますが、複数のグリフが、一つ又は複数の文字に
> 対応する時には使えませんでした。
> やはり、現状では、フォントを作り替えるのが、唯一の方法かも知れません。

とのことで，これをまとめると

（a）khmのような「合成文字」を使っていない場合は（1）ないし（2）の
     方法が可能
（b）「合成文字」を使っている場合はフォントを新規に作成する

という理解でよいのでしょうか。

例えば今のBabel古典ギリシャ語の場合は，アクセントや気息記号を
含んだグリフを用意しているため，生成された文字と一対一対応に
なっています。このような場合は「元となるグリフや文字がどんな
配列であろうとも」何らかの仕方でUnicodeへと対応づけることが
できる（コピー & ペーストが出来る）ことになるのでしょうか。

合成文字を使っていないものについては救えるとすると，これは
これでかなり大きな意義があるように感じます。
この書き込みへの返事：