2008年4月アーカイブ

EUCの種別

| コメント(0) | トラックバック(0)

PostgreSQLのメーリングリストでミラクルリナックスの森山さんがEUCの仕様に関して分かりやすい分類をしてくれていたので忘れないようにメモをしておく。

EUC-JP JIS X 0208, JIS X 0212 (ベンダ拡張なし)
cp51932 JIS X 0212 無し (NEC特殊文字、NEC選定IBM拡張文字追加)
eucJP-ms eucJP-open と同一の文字集合で Unicode 変換の違いにより eucJP-ascii, eucJP-0201,eucJP-ms の 3 つが定義されている大文字のローマ数字などの重複定義文字の変換の正式な規定はないため実装依存の可能性を考慮する必要あり。PostgreSQL の EUC_JP。ただし Unicode との変換ではユーザー定義文字の変換は行われない
eucJP-ms-ex eucJP-ms の ユーザー定義文字領域を潰してNEC選定IBM拡張文字追加
cp51932-firefox cp51932 に JIS X 0212 を追加
cp51932-ex cp51932-firefox に eucJP-open の 0×8ff3f3~ 0×8ff4fe を追加

4, 5, 6 は森山さんが名前を付けたものとの事だが非常に分かりやすく定義付けをしてくれていると思う。

個人的には環境は出来るだけUTF-8に統一するようにしているがそうも行かない環境もあるところが痛いところかと。

ウェブページ