Opinion：私の名は？――名字の異体字を考える

私の名は？――名字の異体字を考える

渡邉利和
2002/03/09

　限定された「文字コード」の影響で、デジタル・データとして利用できる漢字が限定されてしまう、という問題は古くからある。ところが、最近はあまり聞かれなくなったようだ。しかし、この古い問題はいまだに健在なのだ。今回は、筆者の名字からこの問題を考えてみたいと思う。

名前を間違えられる

　唐突だが、筆者の名前は「渡邉利和」である。基本的には面白くも何ともない、何の変哲もない名前であるが、唯一引っ掛かるところがあるとすれば、それは「邉」の字だろう。この字はさまざまな異体字があることでも知られており、戸籍の記録を調べたら20種だか50種だかの異体字が確認されたとかで話題になったこともあったはずだ＊1。

＊1　詳しい情報を覚えておらず、残念に思っている。こうした調査結果に心当たりがある方がいたら、ぜひ参照先をお教えいただきたい。なお、イーストが販売している「人名外字1500V2」という外字フォント集には、ワタナベの「辺」の異体字は65種類収録されているということなので、もしかしたら調査結果ではもっと多くの異体字が確認されているかもしれない（イーストの「人名外字1500V2に収録されている異体字の一部」）。

　さて、結構な数の異体字があるのだが、しかしながら現在一般的にPC上で利用できる「ワタナベ」という名字の漢字表記は、以下の3種類に限られる＊2。

渡辺
渡邊
渡邉

＊2　「渡部」などを無視しているが、これは異体字という問題とは違うのでご容赦いただきたい。「ワタナベ」と読む名字には、このほかさまざまな漢字を当てる例があることはもちろん認識している。

　いずれも、読みとしては「ワタナベ」であり、日本人の名字として確か上位10位以内に入るありふれた読みの名字である。だからこそ、異体字の微妙な表記にもこだわりたくなろうというものだ。なお、本来「辺」は異体字ではなく、別表記というべきだが、一般にはこれは「渡邉／渡邊」の簡略表現として通用しているので、ここでは同列に扱っておこう。ちなみに、上に挙げた順序は無意味なものではなく、一応、ユーザー（？）が多い順になるように並べたつもりである。そう、別に自慢にも何もならないが、「渡邉」は相対的に少数派であり、このことが極めてありふれた「ワタナベ」という名字を持つ筆者にとってはささやかな差別化ポイントとして重要なのである。

　ただ、「邉」と「邊」の違いについては、特にディスプレイの画面上だとフォントやサイズによっては判別が困難になることもあって、間違われることも多い。筆者が「渡邉です」と初めて送ったメールの返事が、「渡邊様」と返ってくることは珍しくもない。まぁ、筆者もさすがに「ほかの方にあてたメールが間違って私のところに届いたようです」などという嫌みな返事を返したりはせず、「こういう違いを気にしない人なんだなぁ」と思うだけに留めてはいるが、それでも字が間違って使われている場合、少なくとも筆者はその違いをほぼ瞬時に発見し、「間違われている」ということを明確に意識する（といっても、いつまでも恨みに思うほど執念深いタイプではないが）。

久しぶりの名前間違い

　さて、なぜこんな話を持ち出したかというと、それは年末にインターネット通販でノートPCを購入したときに、久しぶりにちょっと驚く体験をしたからだ。

　失礼ながら、話の都合上、メーカー名を明記させていただくと、デルコンピュータである。ここは直販モデルで有名なPCベンダであり、筆者の場合はWeb上に用意されたフォームを利用してPCの発注を行った。しかし、それにもかかわらず、なぜかデルコンピュータから送られてくる電子メール、FAX、郵便物のあて名ラベル、そして宅配便の伝票に至るまで、すべてのあて先が「渡邊利和様」になっていたのだ。何が不思議かというと、そもそも筆者はWebフォームで自分の名前を自分で入力しており、そこでは当然「渡邉利和」と入力しているのである。それがなぜ「渡邊利和」に化ける？

　多くの人が、「それは単なる入力ミスだろ？」と思うだろうと予想するが、それはあり得ない。MS-DOS時代には、まず漢字コードを指定してJIS第2水準に含まれる「邉」の文字を見つけ出して辞書登録してから、日本語入力システムを使い始める、という手順を欠かさず踏み、おおよそ15年ほど前からPC上でも「渡邉」と表記し続けてきた筆者である。このときに限って間違うとは到底考えられない。何しろ、筆者の使っている環境では「ワタナベ」と入力して変換すれば、第1候補となるのは常に「渡邉」の方であることからも、突然そのときだけ間違うことは考えにくいのである。

　というわけで、デルコンピュータが「邉」を「邊」に変換した、という前提で、もう少し考察してみよう。まず問題になるのは、なぜデルコンピュータはその変換を行ったかということである。

ソートや検索・抽出の都合で文字をそろえておきたかった
デルコンピュータではJIS第2水準の漢字の使用が禁止されている
デルコンピュータのシステムは極めて人間的な文字の認識ミスをする

　さぁ、順番に検討していこう。まず1.だが、これはありそうなことのような気もするし、無意味という気もする。実際に顧客データベースから「ワタナベ」を探し出したい場合、その「ワタナベ」がどの文字を使っているかで見つかったり見つからなかったりしては不都合であるのは間違いない。しかし、普通はそれにはキーとして読み仮名を使う手法が一般的であり、わざわざ顧客の名前の表記を一方的に変更してまで実施するとは考えにくいものがある。それに、何しろ「邉」を「邊」に変更するには、この2つの文字が異体字の関係にあり、（筆者のような心情的なこだわりを除けば）入れ替えても意味が通じなくなったりはしない、ということを理解しており、かつ「邉」よりも「邊」の方が利用例が多い、ということまで知らなくてはできないことだ。つまり、「異体字統合辞書」といったものがないと、こうした作業を自動的に行うのは難しい。

　2.に関しては、自分で挙げておきながらこういうのも何だが、あまりに時代錯誤である。日本語文字フォントが「漢字ROM」に格納されており、かつコスト的な問題で漢字ROMの搭載をケチった機種で、「JIS第2水準の文字は表示できません」というコンピュータも確かにかつて存在したが、それこそもう20年近く前の話である。いまさらそんなケチな了見で顧客データベースを設計する例があるとは考えられない。

　3.は、まぁ冗談である。Webフォームから顧客データベースに情報を転送する場合、コンピュータが「目で見て書き写す」のであればこうしたミスが発生する可能性があるのだが、現在はなぜかいまだにHAL9000が実用化されていないAnother Worldの2002年である。こうした人間味あふれるコンピュータの利用例はないものと思う。

　であれば、なぜこの変換は起こったか？

　実は、筆者が最初に想定したストーリーは、上記の3候補の中では3.に最も近いものだ。ただし、「人間的なミスをするシステム」を想定したわけではなく、「ミスをする人間が介在するシステム」を想定したわけだ。具体的な表現をしてしまえば、「デルコンピュータのシステムでは、Webフォームにユーザーが入力した情報を目で見て顧客データベースに打ち込み直すオペレータがいるんじゃないか？」ということである。

　相手は、ITを活用し、高度なSupply Chain Managementで高い競争力を実現して圧倒的な低コスト体質でライバルをけ散らした「デル・ダイレクト・モデル」で全世界に知られた、まさにITの権化のようなデルコンピュータである。「目で見て打ち直したでしょ」とはさすがにいいにくいものがあり、この仮説の裏付けは取っていない。しかしながら、ITで最高レベルの効率化を実現したことはともかく、細かいところでは実態としてこんなモンかも、という気がしないでもない。もしかしたら、元が米国の企業だけに漢字対応が十分にできていない、ということも考えられるし。

異体字をどう扱うか

　さて、異体字の問題の1つに、「検索や抽出の障害になる」ということがある。これは、確かに解決しにくい問題である。検索や抽出といった処理は、現状は文字コードによってマッチングをチェックすることで実現している。しかし、現状で一般的な文字コード体系では、異体字が確認しやすいようにコード化してあるわけではない。当然「邉」と「邊」についても、文字コードからこの2つの文字が異体字の関係にあることを知ることは不可能だ。

　ただし、前に仮想的な例として挙げた「異体字統合辞書」を実際に用意することでこの問題に対処することは可能である。しかし、こうした辞書を作るのは簡単ではないし、こうした統合が必ずしも有効とは限らない。

　Webの一般的なサーチ・エンジンによる検索では、異体字まで考慮している例は少ないようだが、筆者が試した範囲では、InfoseekのWeb検索が面白い結果を返すようだ。というのも、ここで単純に検索を実行した場合、検索キーとして「渡辺利和」「渡邊利和」「渡邉利和」の3種のいずれを指定しても、得られる結果がまったく同一なのである。そのほかは、Google、goo、Excite、Yahoo! Japan、MSN Japanなど、気が付く範囲で適当に試したが、それぞれ厳密にマッチングを見ており、すべて交ぜた結果を出すところはほかに見当たらなかった。どうも、Infoseekだけが極めて特異な仕様で検索を実行しているようだ。ただ、異体字を区別しないから得られる検索結果も一番多いのか、というとまるでそうはならないあたりが面白いところではある。日本人が人名を探すにはこの仕様はなかなか面白いが、場合によっては目的外のマッチングが多すぎて困る、ということもあると思うので、すべての検索エンジンがこうなってほしいとも思わず、微妙なところではある。

　というあたりでそろそろ今回のオピニオンも終わりにしようと思うが、一応最後に、だれもが筆者の名前を間違わず「渡邉利和」と表示してくれれば満足かというと、実はそうでもないということを告白しておこう。というのも、この「邉」にしても、実は筆者の名前の正しい表記ではない。選択肢が「邉」と「邊」しかないから、よく似た（ほとんどそっくりな）「邉」を使っているのだが、ホントはこれでも違うのである。といってもお分かりいただけないと思うので、一応字形の画像を用意してみた（図1）。

図1　邊と邉

左がややメジャーな「邊」で、右が筆者が普段使用しているややマイナーな「邉」。このサイズで見比べればだれの目にも「同じではない」ことは明らかだと思うが、電子メールなどで使う文字サイズだと、気にしない人は混同する。

　そして、「邉」を筆者が改造して作った「筆者の名前に使われる本来の正しい字形」を図2に示す。図1の右の文字との違いはかなり微妙なので、興味のある方はじっくり見比べていただきたい。

図2　筆者の正しい名前に使われる「邉」の字

筆者の名前を正しく表記するためには、この字形に標準的な文字コードが割り当てられている必要がある。しかし、気になって確認したところ、いまではJISは第1水準、第2水準に加えて第3水準、第4水準、補助漢字と増えていた。これらの字形一覧を探してみれば、ひょっとしたら含まれているのかもしれない。

　そもそもコード化された文字があまりに限定されており、問題である、という議論は古くからある。例えば、研究などの目的で参照する人の便宜を図るため、古文書などを電子化して保存しようという活動が行われている。これも、画像として保存するのは容易だが、なにしろ相手は「文書」であるため、言葉や文字のレベルで検索や抽出ができてほしい。しかし、古文書に使われている文字を正確にデジタル化するには、現状で一般的なJISだのEUCだのUNICODEでは全然文字種が足りないのである。

　こうした用途であれば、とにかく漢字をたくさん扱えるということを前面に押し出して「超漢字（BTRON）」という名称まで冠してしまった国産OSもあるので、こうしたものを利用する手はある（パーソナルメディアの「超漢字の情報ページ」）。筆者のように、自分の名前を正しく表記したい、という用途では、自分だけが正しく表記できても意味がない、という理由によって「超漢字」を利用しようとは思わないので、実際に使用した経験はないのだが。

　ともあれ、「自分の名前すら満足に表示できないコンピュータなんて」という話は、大昔から、それこそ耳にタコができた揚げ句火星人に進化してしまった、というくらいしつこく聞かされ続けている。それでもこうした状況は一向に変わる気配がない（「超漢字」はあるにしても）。「この問題とは、もう一生つき合い続けるしかないだろうなぁ」という気もしている。しかしながら、世の中のPCはプロセッサが64bitに移行しそうな勢いだし、メモリは256Mbytes、ハードディスクが80Gbytesというのが当たり前に使えるようになっている。この状況でデータ量をケチってもなぁ、という思いもあるのだ。いっそ文字コードを32bitで統一してしまえば、少なくとも「漢字が出ない」などという問題は解消できるはずだと思うのだが、きっと無理な願いというものなのだろう。

関連リンク
イースト	人名外字1500V2に収録されている異字体の一部のページ
Infoseek	Web検索ページ
パーソナルメディア	超漢字の情報ページ

「Opinion：渡邉利和」

渡邉　利和（わたなべ　としかず）
PCにハマッた国文学科の学生というおよそ実務には不向きな人間が、「パソコン雑誌の編集者にならなれるかも」と考えて（株）アスキーに入社。約1年間技術支援部門に所属してハイレベルのUNIXハッカーの仕事ぶりを身近に見る機会を得た。その後月刊スーパーアスキーの創刊に参加。創刊3号目の1990年10月号でTCP/IPネットワークの特集を担当。UNIX、TCP/IP、そしてインターネットを興味のままに眺めているうちにここまで辿り着く。現在はフリーライターと称する失業者。（toshi-w@tt.rim.or.jp）

System Insider フォーラム新着記事

Intelと互換プロセッサとの戦いの歴史を振り返る （2017/6/28）
　Intelのx86が誕生して約40年たつという。x86プロセッサは、互換プロセッサとの戦いでもあった。その歴史を簡単に振り返ってみよう
第204回人工知能がFPGAに恋する理由 （2017/5/25）
　最近、人工知能（AI）のアクセラレータとしてFPGAを活用する動きがある。なぜCPUやGPUに加えて、FPGAが人工知能に活用されるのだろうか。その理由は？
IoT実用化への号砲は鳴った （2017/4/27）
　スタートの号砲が鳴ったようだ。多くのベンダーからIoTを使った実証実験の発表が相次いでいる。あと半年もすれば、実用化へのゴールも見えてくるのだろうか？
スパコンの新しい潮流は人工知能にあり？ （2017/3/29）
　スパコン関連の発表が続いている。多くが「人工知能」をターゲットにしているようだ。人工知能向けのスパコンとはどのようなものなのか、最近の発表から見ていこう

＠ITメールマガジン　新着情報やスタッフのコラムがメールで届きます（無料）

注目のテーマ

System Insider 記事ランキング

本日月間

＠IT

私の名は？――名字の異体字を考える

名前を間違えられる

久しぶりの名前間違い

異体字をどう扱うか

注目のテーマ

System Insider 記事ランキング

転職／派遣情報を探す

年収６００万円！エンジニア向けの求人満載。転職希望者必見

エンジニアの転職なら【転職サーチ】