名前: 栗山雅俊 日時: 2007-07-19 16:47:39 IPアドレス: 133.87.1.*
>>48763 ZRさん、いつも詳しい解説ありがとうございます。 まず基本的な考え方を確認させていただきたいのですが、 >>48761 > - Unicode は上述の集合とのラウンドトリップの対応を保証する。すなわち、 > 日本語符号で「半角/全角」で重複する文字は Unicode でも重複した符号位置 > (片方は互換文字)をもつ。 > 日本語符号(GL 表現) - Unicode > ! - 半角 21h - U+0021 EXCLAMATION MARK > ! - 全角 212Ah - U+FF01 FULLWIDTH EXCLAMATION MARK これはわかりやすいです。JIS(その他日本語)に全角と半角の 二つがある場合は Unicode でも区別するということですね。 > - しかし、上述の日本語符号の「半角」部分には Latin-1 は含まれない。だから > Latin-1 の文字は、「全角」にのみ存在するか、全く含まれないかのいずれか > であり、従って Unicode では重複する符号位置をもたない。 > § - 全角 2178h - U+00F7 SECTION SIGN > <a-acute> - (なし) - U+00E1 LATIN SMALL LETTER A WITH ACUTE 問題はここなのですが、Unicode では(1)Latin-1 に含まれる セクション記号と(2)日本の「全角」セクション記号は同じもの であると考えているわけですね。 # もしこの二つが「異なった文字」という認識であれば、例えば # "FULLWIDTH SECTION SIGN" 等の別な名前が与えられ、別な文字 # として扱われたと思われるからです(重複している、いないに # かかわらず) Unicode 上では「同じ」記号は、それでも日本の環境下では 必ずしも同一視できない「事情」があるわけで、この点が Unicode の考え方と実際の運用の間に不整合を生んでいる という理解でよいのでしょうか。 結論としては(4)案が実状にあっているような気がする ので同じことになるのですが、基本的な考え方(概念)を 押さえたいと思い、このような質問となりました。
この書き込みへの返事: