upTeX の kcatcode の既定値(Re: 欧文ギリシア語の...)

名前: ZR
日時: 2007-06-06 18:24:23
IPアドレス: 59.140.98.*

>>48203 >Unicodeのブロックについては、 >ソース内の、tetex-src-3.0/texk/web2c/uptex/kanji.c や Unicode.orgの表 を御参考ください。 この kanji.c と uptex のパッチを見て、現状の uptex の kcatcode の既定値 を調べたところ、次のようになっていました。 0x0 .. 0x7F 15(not_cjk) # Basic Latin 0x1100 .. 0x11FF 19(hangul) # Hangul Jamo 0x2E80 .. 0x2EFF 16(kanji) # CJK Radicals Supplement 0x2F00 .. 0x2FEF 16(kanji) # Kangxi Radicals 0x2FF0 .. 0x2FFF 16(kanji) # Ideographic Description Characters 0x3000 .. 0x303F 16(kanji) # CJK Symbols and Punctuation 0x3040 .. 0x309F 17(kana) # Hiragana 0x30A0 .. 0x30FF 17(kana) # Katakana 0x3100 .. 0x312F 16(kanji) # Bopomofo 0x3130 .. 0x318F 19(hangul) # Hangul Compatibility Jamo 0x3190 .. 0x319F 16(kanji) # Kanbun 0x31A0 .. 0x31BF 16(kanji) # Bopomofo Extended 0x31C0 .. 0x31EF 16(kanji) # CJK Strokes 0x31F0 .. 0x31FF 16(kanji) # Katakana Phonetic Extensions 0x3200 .. 0x32FF 16(kanji) # Enclosed CJK Letters and Months 0x3300 .. 0x33FF 16(kanji) # CJK Compatibility 0x3400 .. 0x4DBF 16(kanji) # CJK Unified Ideographs Extension A 0x4DC0 .. 0x4DFF 16(kanji) # Yijing Hexagram Symbols 0x4E00 .. 0x9FFF 16(kanji) # CJK Unified Ideographs 0xAC00 .. 0xD7FF 19(hangul) # Hangul Syllables 0xFF00 .. 0xFFEF 17(kana) # Halfwidth and Fullwidth Forms 0x20000 .. 0x2F7FF 16(kanji) # CJK Unified Ideographs Extension B 0x2F800 .. 0x2FFFF 16(kanji) # CJK Compatibility Ideographs Supplemen これ以外のブロックはすべて 18(other_kchar) である。 これについて、修正すべきと思う点を挙げておきます。 1. "Yijing Hexagram Symbols" は 16(kanji) → 18(other_kchar)。 2. "CJK Compatibility Ideographs" は 18(other_kchar) → 16(kanji)。 0xF900 .. 0xFBFF 18(other_kchar) # CJK Compatibility Ideographs あと、疑問に思う点、考慮すべき点。 3. "CJK Symbols and Punctuation" は 16(kanji) → 18(other_kchar)? 次のものも疑問。 - Katakana Phonetic Extensions (16(kanji) → 17(kana)?) - Enclosed CJK Letters and Months (16(kanji) → 18(other_kchar)?) - CJK Compatibility (16(kanji) → 18(other_kchar)?) 4. "Halfwidth and Fullwidth Forms" は 17(kana) → 18(other_kchar)? この領域に含まれる文字は次の 3 種類で、pTeX での kcatcode は次の通り。 a. ASCII にある記号の「全角形」: 18 (JISX0208 1 区) b. ASCII 英数字の「全角形」: 17 (JISX0208 3 区) c. 半角カナ(JISX0201 カタカナ): (非対応) pTeX では b. より a. の方が圧倒的に頻度が高いし、またコントロールワードに 隣接して用いられる可能性も高い。 5. "Greek and Coptic" は 18(other_kchar) → 17(kana)???? pTeX との違いを最小にするなら……。 以上です。

この書き込みへの返事:

お名前
題名 
メッセージ(タグは <a href="...">...</a> だけ使えます。適宜改行を入れてください)