Re: 非ASCII文字のハイフネーションパターンファイル

名前: ttk
日時: 2006-09-21 00:11:02
IPアドレス: 61.210.211.*

>>44935 > pTeX-3.1.4 から「原則として」8ビットコードが使える 私の理解によって少々補足してみます。 pTeXの処理は大雑把に言うと、 (1)入力バッファ(和文8bit 2byte, 欧文1byte) (2)トークン化(和文は16bitに) (3)マクロ展開(^^abは8bit 1byteに) (4)組版処理 の順に行われます。 (2)の時点で連続する2byteがEUCやSJISのパターンと一致すると、和文と判断され16bit化されます。 欧文8bitでもこのパターンと合致しない場合や^^ab形式でASCII化したものは (2)の和文チェックを回避でき、 その後は和文16bitと欧文8bitは区別できるので正しく処理できます。 (1)の時点で和文8bit 2byteと欧文8bitを区別するのは一般的には困難で、 区別できるときは運がいいともいえます。 引っかかる場合には^^ab化が対策になることも分かると思います。 欧文8bitを^^ab化することなく生でpTeXを通るようにするには、例えば、 [1] 入力バッファを16bit化する [2] 入力ファイルごとまたは場所ごとに文字コードを指定できるようにする [3] 和文チェックをon/off出来るような仕組みをつくる などの手段を必要とし、それなりの改造をしなければなりません。 以上、嘘だったら訂正お願いします。 #pTeXの内部Unicode化の案を色々考えているのですが、 #「欧文7bit+和文拡張」ならばさほど難しくないのですが #Babelを考えると[1]〜[3]あたりに取り組む必要がありそうです。 #どなたかディスカッションしていただけませんかね。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)