- PR -

漢字コードの判定について

投稿者

投稿内容

トシ: 会議室デビュー日: 2003/03/11; 投稿数: 2

投稿日時: 2003-03-11 15:47

今回初めて投稿させていただきました。
Ｃ＃で、Windowsのアプリの開発を行っています。

漢字コードの判断で、その漢字が第１水準・第２水準
か（又は外字）判断する方法がわかりません。

方法をご存知の方がいらっしゃいましたら、教えて下さい。

よろしくお願いいたします。

みみ: 会議室デビュー日: 2003/03/13; 投稿数: 2

投稿日時: 2003-03-20 12:50

すでに解決しているかもしれませんが、ちょっと考えてみました。
JIS第一水準は 0x889F ～ 0x9872、JIS第二水準は 0x989F ～ 0xFC4B となります。
そこで、調べたい文字をバイト配列にエンコードして、第一水準・第二水準のJISコードの範囲にあるか
判定するというのはいかがでしょうか。

以下のコードで試したところ、ちゃんと判定できているようです。
（16進コードの判定に改良の余地があると思います）

コード:

using System.Text;

private void Method1()
{
    string st = "調べたい文字列";

    Encoding sjis = Encoding.GetEncoding("shift-jis");
    for(int i = 0; i < st.Length; i++)
    {
        // バイト配列にエンコーディング
	byte[] bstr = sjis.GetBytes(st.Substring(i, 1));

	// 第一水準の判定
	if(bstr[0] >= 0x88 && bstr[0] < 0x98)
	{
  	    System.Diagnostics.Debug.WriteLine("第一水準");
	    continue;
	}
	else if(bstr[0] == 0x98 && bstr[1] <= 0x72)
	{
            System.Diagnostics.Debug.WriteLine("第一水準");
            continue;
        }

	// 第二水準の判定
	if(bstr[0] >= 0x98 && bstr[0] < 0xFC)
	{
	    System.Diagnostics.Debug.WriteLine("第二水準");
	    continue;
	}
	else if(bstr[0] == 0xFC && bstr[1] <= 0x4B)
	{
            System.Diagnostics.Debug.WriteLine("第二水準");
	    continue;
	}
    }
}

みみ: 会議室デビュー日: 2003/03/13; 投稿数: 2

投稿日時: 2003-03-20 13:08

自己レスです。

第二水準の範囲を 0x989F ～ 0xFC4B と書きましたが、この中には
漢字以外の文字（ローマ数字や（株）など）も含まれてしまいます。
これらの文字を除外して判定しないといけないですね。

トシ: 会議室デビュー日: 2003/03/11; 投稿数: 2

投稿日時: 2003-03-20 13:58

”みみ”さんありがとうございました。

分からなくて、あきらめかけていましたが、早速ためした所
できました。

後ほどご指摘いただきましたローマ数字の部分も完璧です。

とても、分かりやすいご返答を頂き、大変たすかりました。

＠IT SpecialPR

漢字コードの判定について

スキルアップ／キャリアアップ（JOB@IT）