[qa:47831] Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

Re: PDF中のテキストの抽出 (Re: dvipdfm vs. pdflatex?)

名前: 永田善久
日時: 2007-05-01 12:24:52
IPアドレス: 218.231.117.*

>>47828

稲垣様，anonymouse 様，ZR 様，

必要と需要はあるのか？ などと，軽はずみなことを言ってしまいました。
すみません (^^;

必要と需要があるからこそ，異なったグリフが存在するのですよね。当たり前
のことでした。

ご紹介くださった

Problems of diacritic design for Latin script text faces

によれば，母音が「変音 umlaut」したことから確立されてきた
ウムラウトの記法は「字母と一体化したデザイン（ジャーマン・フォーム）」
を志向するのに対し，連続する母音を「区分 diaeresis」することに
由来する分音記号は，基本字母に（デザイン上）統一的な付加記号を
プラスする（インターナショナル・フォーム）のが常だそうです。

そして，現在では「インターナショナル・フォーム」がスタンダード形
となっているそうです。

そうしたことが原因かどうかは知りませんが，最新の Latin Modern フォント
では，TeX Font Sampler の 107 ページに挙がっている「ウムラウト」に
はアクセスできなくなっているような気がします。

相違する a diaeresis と a umlaut を Latin Modern で出力しようと
試行錯誤しましたが，結局，よく分かりませんでした (^^;

一応，2007年04月12日版の ptetex セットですと，以下の方法で TeX Font Sampler
にある a diaeresis と a umlaut を確認できます。ConTeXt を使って，下のファイルを処理
します。ただし，同一ファイル内で a diaeresis と a umlaut の違いはなく，同じグリフと
なっています。

texexec --pdf diff.tex

----------------------------- diff.tex 作成
\starttext
\usetypescript[all][latin-modern][texnansi]% a-umlaut 系
%\usetypescript[all][latin-modern][ec]% こちらだと a-diaeresis 系
\setupbodyfont[reset]
\setupbodyfont[cmr]
\enableregime[utf]
\aumlaut{} \Aumlaut{} \oumlaut{} \Oumlaut{} \uumlaut{} \Uumlaut

\adiaeresis{} \Adiaeresis{} \odiaeresis{} \Odiaeresis{}  \udiaeresis{} \Udiaeresis

%\showcharacters

%\showaccents
\stoptext
-----------------------------

P.S.
1. 土村さんの ptetex セットに含まれる ConTeXt ver.2005.01.31 + LM ver.0.92 で OK でした。
2. ConTeXt ver.2007.04.17 + LM ver.1.010 ですと [texnansi] でも [ec] でも全く同じ出力となります。
3. 角藤先生の Win32TeX では（LM が新しいため）a umlaut 系は出せませんでした。
texexec.bat ファイル内の texexec.rb という箇所は perl 使用でしたら texexec.pl とすれば
良いと思います。ruby がインストールされていれば，そのままで大丈夫です。
この書き込みへの返事：