VS.  
𠮟

右のほうは機種依存文字なのでWindowsならば表示されるはず。Macとかだと文字化けしてるのでしょう。

結論は、コチラに詳しく書いてあります。


コチラの記事のほうがわかりやすかったかも。


パソコンとは関係ない話もありました。


う〜ん、昔なつかしい「〜」問題と同様なのかなぁ…。


っと思ったけど、どうも違ったみたい。。


今回、この問題にブチ当たったのは、人名に使える漢字を総まとめしようとしていたため。

法務省 戸籍統一文字情報
↑のサイトの情報を元にまとめていた。
こちらでは、肝心の文字は画像として表示されており、文字にするには「Unicode」か「シフトJIS」の文字コードから変換するしか無かった。
文字コードにはさらに「JIS2004」なるものもあった。

んで、この文字コード自体が存在しない文字があったりして、それらについては仕方なく手入力した。
でも、文字コードから変換してもどうしてもうまくいかない文字が存在した。
それが、件の「叱」じゃないほうの「𠮟」だったのです。

データベースのカラムをUTF-8のchar(1)として、3バイト分しか入らないようにしていたところに、「叱」じゃないほうを入れようとしたところ、これは4バイトになるらしく、エラーとなっていたらしい。
いや、エラーとなってくれればもっと早く気付いたんだけど、エラーとならず、空白が入ってしまっていた。
phpMyAdminで手入力しようとしたらエラーが出たため、ようやくそこで気付いた。

Unicodeの拡張領域にある文字(符号位置(コードポイント)が16ビットを超え、UTF8では4バイト、 UTF16でも4バイト必要な文字)としては、唯一の常用漢字

なのだそうだ。。

うーーむ。
つまり、「𠮟」や非常用漢字はUTF-8なデータベースには1文字分としては入らない、ってことか…?
これは知らなかったなぁ…。

将来的にハマりそうだなぁ……。
そしてこの記事を書いたことを忘れてそうだなぁ………。