Weekly Top 10

古くて新しい文字コード問題

2007/02/19

 先週のニュース記事のランキングトップは、「google.cm」という紛らわしいドメイン名に要注意というニュース。カメルーンのトップレベルドメインである「.cm」は「.com」と似ているため、今後も注意が必要だ。URLやドメイン名は、SSLほどではないが緩やかな認証機能を果たしてきた。特に日本の法人向けドメイン「.co.jp」の取得には登記簿が必要であるなど現実世界と厳しくリンクされているため、DNSサーバがクラックされているような可能性を除くと、かなり高い確度でサーバの運用母体を信用できる。しかし、ケータイの画面やテレビ画面など、文字の視認性がパソコンに劣るデバイスでのインターネットの利用が進んだとき、類似ドメインによる詐欺が増加する可能性があるのではないだろうか。

NewsInsight Weeky Top 10
(2007年2月11日〜2月17日)
1位 「.com」のつもりが「.cm」、カメルーンのGoogleサイトに要注意
2位 Windows Vista普及を阻む日本語問題
3位 現代のソフト開発の生産性は1920年代の自動車産業並
4位 Winnyによる漏えいファイル拡散をブロック、大量の偽情報配布で
5位 Web2.0をデスクトップに統合するApollo
6位 簡単マッシュアップ、「Yahoo! Pipes」が面白い
7位 今度は「3000年問題」、Visual C++に
8位 過去数カ月でアダルトスパム数は激減、シマンテックが報告
9位 エリアのドコモ、料金ソフトバンク、イメージと端末のau
10位 スパムメールは根絶できるか

Vista普及に文字コード問題あり!?

 2位になったのは、「Windows Vista普及を阻む日本語問題」。Vistaが順調に普及するのかどうかを巡って業界関係者は慎重に動向を見守っている。

 問題となっているのは、Windows VistaとWindows XPやWindows Server 2003での日本語フォントの違い。Windows Vistaは、2004年に改定された文字コードの「JIS X 0213:2004」、通称“JIS2004”を採用し、これまで表示できなかった漢字や旧字体が表示できるようになった。逆にそのことでWindows Vistaで入力した文字がWindows XPやWindows Server 2003で意図しない字体で表示されたり、空白文字となるなどの問題が指摘されている。

 1990年代後半に騒がれた、いわゆる「文字コード問題」を彷彿させるような話だが、OSの導入を思いとどまるにはには小さな問題だ、といったら暴論だろうか。文字が化けるといっても、多くは旧字体と新字体の違い。同じ文字の異体字だ。フォントを入れ替えれば済む話でもある。

進まぬ異体字セレクタの実装

 本来であれば、こうした異体字はUnicode3.2以降にある「異体字セレクタ」(Variation Selector)を使って解決するべき問題だろう。同一コードポイントの文字でも、修飾子として異体字セレクタ番号を後置することで「渡邊」と「渡邉」のような異体字を書き分けることができる。処理系は、検索やソート時に異体字セレクタを無視するだけで、異体字について特に処理する必要がなく合理的だ。異体字セレクタにより、最大256の字体を同一の文字の異体字として扱える。

 Unicodeの異体字セレクタを使うには、事前に字体が定義されている必要がある。しかし残念ながら、今のところ具体的な文字の規定はなく、処理系の実装も進んでいない。

 漢字の異体字を同定して国際規格で定義するとなれば、日本一国の事情だけでどうにかなる話ではなく、少なくとも日中韓の協議が不可欠だ。相当な時間と労力を費やすことになるだろう。XPとVistaの異体字問題をきっかけにして、異体字セレクタの議論が前に進めばと思うのだが。

(@IT 西村賢)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)