Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: 永田善久
日時: 2007-05-01 12:24:52
IPアドレス: 218.231.117.*

>>47828 稲垣様,anonymouse 様,ZR 様, 必要と需要はあるのか? などと,軽はずみなことを言ってしまいました。 すみません (^^; 必要と需要があるからこそ,異なったグリフが存在するのですよね。当たり前 のことでした。 ご紹介くださった Problems of diacritic design for Latin script text faces によれば,母音が「変音 umlaut」したことから確立されてきた ウムラウトの記法は「字母と一体化したデザイン(ジャーマン・フォーム)」 を志向するのに対し,連続する母音を「区分 diaeresis」することに 由来する分音記号は,基本字母に(デザイン上)統一的な付加記号を プラスする(インターナショナル・フォーム)のが常だそうです。 そして,現在では「インターナショナル・フォーム」がスタンダード形 となっているそうです。 そうしたことが原因かどうかは知りませんが,最新の Latin Modern フォント では,TeX Font Sampler の 107 ページに挙がっている「ウムラウト」に はアクセスできなくなっているような気がします。 相違する a diaeresis と a umlaut を Latin Modern で出力しようと 試行錯誤しましたが,結局,よく分かりませんでした (^^; 一応,2007年04月12日版の ptetex セットですと,以下の方法で TeX Font Sampler にある a diaeresis と a umlaut を確認できます。ConTeXt を使って,下のファイルを処理 します。ただし,同一ファイル内で a diaeresis と a umlaut の違いはなく,同じグリフと なっています。 texexec --pdf diff.tex ----------------------------- diff.tex 作成 \starttext \usetypescript[all][latin-modern][texnansi]% a-umlaut 系 %\usetypescript[all][latin-modern][ec]% こちらだと a-diaeresis 系 \setupbodyfont[reset] \setupbodyfont[cmr] \enableregime[utf] \aumlaut{} \Aumlaut{} \oumlaut{} \Oumlaut{} \uumlaut{} \Uumlaut \adiaeresis{} \Adiaeresis{} \odiaeresis{} \Odiaeresis{} \udiaeresis{} \Udiaeresis %\showcharacters %\showaccents \stoptext ----------------------------- P.S. 1. 土村さんの ptetex セットに含まれる ConTeXt ver.2005.01.31 + LM ver.0.92 で OK でした。 2. ConTeXt ver.2007.04.17 + LM ver.1.010 ですと [texnansi] でも [ec] でも全く同じ出力となります。 3. 角藤先生の Win32TeX では(LM が新しいため)a umlaut 系は出せませんでした。 texexec.bat ファイル内の texexec.rb という箇所は perl 使用でしたら texexec.pl とすれば 良いと思います。ruby がインストールされていれば,そのままで大丈夫です。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)