Re: 非ASCII文字のハイフネーションパターンファイル

名前: 栗山雅俊
日時: 2006-09-22 03:03:20
IPアドレス: 219.126.147.*

>>44959 ttkさん、こんばんは。 詳しい解説ありがとうございます。 私は pTeX の内部処理について詳細は何もわかっていないの ですが、大ざっぱに言って pTeX-3.1.4 以降では(1)8ビット コードの直接入力であり、かつ(2)コードの並び方が 漢字 1バイト目 + 同2バイト目 と偶然一致した場合にのみ、pTeX は漢字の文字列と誤読してエラーになると理解していました。 (>>31724 角藤先生の解説) これで正しいでしょうか。 この「偶然」は頻度としてはそれほど多くないのですが 欧文用43言語(W32TeX 所収分)ハイフネーションファイルの うち8言語ほど引っかかるので、^^ab 形式の表記に直す必要が 出てきます。eshyph.tex については前の版では問題なかった のですが、今回の版で「偶然の一致」が出現してしまった ようです。 またフォーマットファイル作成時以外に、実際の TeX 文書 作成時にも同様の問題が起こるはずですが、今のところ日本語 混在文では 7bit + shorthands character が一般的(?)なので、 inputenc 等を使わない限り実用上は何とかなるという感じで しょうか。これが「原則として」という曖昧な表現の中で私が 理解していたものでした。 ただ、以前安田さんとのディスカッションでも出てきたのですが これからは Unicode を含め直接入力が主流になると思われ、 (タイプミスが少なくなるので)そのための「拡張」が pTeX で 可能なのかが大変興味深く、かつ気になるところです。 便乗質問で恐縮なのですが、 > (1)入力バッファ(和文8bit 2byte, 欧文1byte) 現在の pTeX はなぜ和文16bitを一気に読まず、8bit + 8bit で処理しようとするのでしょうか。素人考えではこの時点で 区別が出来ていればその後は問題なく動作できそうな気が するのですが、現在の pTeX では困難なのでしょうか。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)