upTeXの和文・欧文の仕様 (Re: upTeX-0.09)

名前: ttk
日時: 2007-07-20 21:47:14
IPアドレス: 61.210.211.*

>>48763 ZRさん、纏めてくださってありがとうございます。 この通り(にしているつもり)だと思います。 補足するとするなら、 # pTeX では和文文字トークン自体は kcatcode を持たない。 # upTeX では和文文字トークン自体が kcatcode+文字コード を持つ。 ですね。 表にしてみると、以下のようになります。 [凡例] ○:欧文、△:欧文8bit多byteの擬似的な動作 ■:和文、―:使用不可 token:内部トークンでの文字コード text:SJIS/EUC/UTF-8など入出力の文字コード ( ):defaultではない [欧文TeX] token text ^^ab \char 〜0x7F ○ ○ ○ ○ 〜0xFF ○ ○[a] ○ ○ 0x100〜 ― △[b] ― ― [pTeX] token text ^^ab \char 〜0x7F ○ ○ ○ ○ 〜0xFF ○ ―[c] ○[f] ○ 0x100〜 ― ―[d] ― ― 0x8000〜 ■ ■[e] ― ■[g] [upTeX(v0.09)] token text ^^ab \char 〜0x7F ○■[h] ○ [i] ○ ○(■)[l] 〜0xFF ○■[h] (○)■[j] ○ (○)■ [m] 0x100〜 ■ (△)■[k] ― ■ [n] [upTeX(修正案4)] token text ^^ab \char \kchar 〜0x7F ○■[h] ○ [i] ○ ○[o] ■[r] 〜0xFF ○■[h] (○)■[j] ○ ○[p] ■[r] 0x100〜 ■ (△)■[k] ― ■[q] ■[r] [a] 8bit1byteで扱うのが基本。[b]のためにこの領域が使われることもある。 [b] 8bit多byteの処理をactive文字化で実現する手法(inputenc,CJK-LaTeX等)がある。 [c] SJIS/EUCのパターンに合わない場合のみ通る。欧文TeXから見ると制限事項になる。 回避には、^^ab, \char などでするしかない。 [d] [b]の方法が使えない。欧文TeXから見ると制限事項になる。 回避には、^^ab, \char などでするしかない。 [e] 入力では8bit2byte。SJIS/EUCのパターンに合う場合のみ有効。 [f] ここの不具合解消によりpTeX+babelが実現可能になった。 [g] 和文/欧文はコードレンジで簡明に区別できる。 [h] 和文の場合はkcatcode付きで管理されるので、欧文と区別できる。 [i] 欧文のみ可能。和文は不可。 [j] defaultは和文。kcatcodeの切り替えにより欧文化が可能。 [k] defaultは和文。kcatcodeの切り替えにより欧文の8bit多byte扱いが可能。 [l] defaultは欧文。kcatcodeの切り替えにより和文化が可能。 [m] defaultは和文。kcatcodeの切り替えにより欧文化が可能。 [n] defaultは和文。kcatcodeの切り替えで無効化も可能。 [o] 欧文のみ可能。和文は不可。 [p] 欧文のみ可能。和文は不可。一部(\char\jis"3021など)pTeXと非互換になる。 [q] 和文のみ可能。欧文は不可。pTeXとの互換性のため用意。 [r] 和文のみ可能。欧文は不可。 >>48768 私> (ISO-2022-JP-2のように同時使用が可能なものは存在したが、 これは嘘だったかもしれません。 ISO-2022-JP-2の成立よりUnicodeの基本設計が先だったかもしれません。 そうだとすると、 JIS第1,2水準とLatin-1の共存は、制限なしのISO-2022位しかなかった、ということになります。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)