名前: anonymouse 日時: 2006-09-02 10:52:58 IPアドレス: 207.210.234.*
<a href=\"http://oku.edu.mie-u.ac.jp/~okumura/texfaq/qa/44624.html\">>>44624</a> > (Extension BとかもOK) KDE環境のエディタのkateは内部動作がUTF-16ベースで、 なかなか面白いバグを持っていまして、XeTeXのソースの 編集に重宝しています。具体例で言うと、 U+20000はUTF-8で表すと、0xF0 A0 80 80, UTF-16で表すと、0xD840 DC00 です。そこで、U+20000をkateのバッファーにペーストすると、 豆腐2文字で表示されます。それはそれでよいのですが、 kateはこれを実際に2文字と認識していて、個別に削除することも、 コピー&ペーストすることも自由にできます。更には、何とUTF-8で 保存したファイルには0xED A1 80 ED B0 80と書き込まれてしまいます。 ところが、実はXeTeXも内部動作はUTF-16ベースで、入力ファイルは 0xF0 A0 80 80でも、0xED A1 80 ED B0 80でも、どちらの表現でも、 U+20000と正しく判断してくれますが、文字をアクティブにしたい 時などは、U+D840をアクティブにする他方法がないのです。 つまり、^^^^を使うのでなければ、surrogate pairを個別の2文字と して、扱え、且つ、保存できる(バグ持ち)エディタが必要な訳です。
この書き込みへの返事: