Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: 栗山雅俊
日時: 2007-05-03 02:00:54
IPアドレス: 220.156.83.*

>>47789 皆様,コメント頂きありがとうございます。 まだ頂いたコメントについて頭の整理ができていないのですが, ZRさんからご呈示いただいた >>47783 > 結局、"real font" を作るしかないのですかねえ……。 に対する解決案としてご教示いただいたものに絞ってコメント 申し上げます。 その解決策として, (1)Takashimaさん >>47784 > otftotfmを使って、otf(たとえばLinuxLibertine)を使うようにすると > どのようなencodingであっても、encファイルにunicode番号が書かれ > dvipdfmxがpdfに対応表を埋め込んでくれるので、クリップボードに > unicodeでコピーされます。 (2)anonymouseさん >>47785 > dvipdfmx の場合ならば、CMap を作れば良いのでは? の二つがあるが,しかし >>47789 > この方法は、フォント中の一つのグリフが、一つ又は複数の > 文字に対応する時には使えますが、複数のグリフが、一つ又は複数の文字に > 対応する時には使えませんでした。 > やはり、現状では、フォントを作り替えるのが、唯一の方法かも知れません。 とのことで,これをまとめると (a)khmのような「合成文字」を使っていない場合は(1)ないし(2)の 方法が可能 (b)「合成文字」を使っている場合はフォントを新規に作成する という理解でよいのでしょうか。 例えば今のBabel古典ギリシャ語の場合は,アクセントや気息記号を 含んだグリフを用意しているため,生成された文字と一対一対応に なっています。このような場合は「元となるグリフや文字がどんな 配列であろうとも」何らかの仕方でUnicodeへと対応づけることが できる(コピー & ペーストが出来る)ことになるのでしょうか。 合成文字を使っていないものについては救えるとすると,これは これでかなり大きな意義があるように感じます。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)