[qa:44993] Re: 非ASCII文字のハイフネーションパターンファイル

Re: 非ASCII文字のハイフネーションパターンファイル

名前: 栗山雅俊
日時: 2006-09-22 22:17:32
IPアドレス: 219.126.147.*

>>44989

安田さん、こんばんは、
私も pTeX の今後については非常に関心を持っておりました
ので、フォローアップいただけると心強いです。

> pTeX の Unicode 対応についていえば、Unicode 文字のプロパティで
> 和文かそれ以外かを判断して従来の和文／欧文規則が決定できるように
> なればよいかなと思っています。

細部の仕様がわからずに申し上げておりますが、
Unicode に限定した話だと、文字コードが欧文と和文ではそれぞれ
異なったコード番号になるので選別が比較的容易になるのではと
予想しました（本当かどうかは怪しいですが...）。

問題は現在の iso8859 系の8ビットコードと、SJIS や EUC の漢字
コードが同じコード帯（0x80〜0xff）を使用していることから来る
トラブルなのかと理解していました。「同じコードが並んでいる」
のだとすると少なくともトークンレベルで区別する指標を持たない
ことから、和文か欧文かの選別が難しいのではないかと想像して
おりました（これは正しいのでしょうか?）。
MonTeX でも8ビットコードが7ビットコードよりもポータビリティが
低いと考えられているのもこのあたりに由来するでしょうか。
# Unicode に全面移行すればよいという考え方もあるかも
# 知れませんが...

Unicode にある程度移行できたとしても、欧文8ビット（iso8859）と
和文の「相性の悪さ」が残るとすると、これはこれで難しい問題に
なりそうです。

以上は内部処理の詳細がわからないまま想像していることなので、
もし誤り等ありましたらご指摘いただければ幸いです。
この書き込みへの返事：