【3/18〜】Amazon、VMwareが語る『クラウドの未来』 スラッシュドット    はてなブックマーク  Yahoo!ブックマークに登録  印刷
 

基礎解説

スマートな文字列処理のための
正規表現入門(前編)

― .NET Frameworkがサポートする正規表現クラスを徹底活用する ―

田口 景介
2003/04/12

Page1 Page2 Page3 Page4

正規表現とは

 検索キーワードを指定するとき、スペースの有無や長音の有無などで面倒な思いをしたことはないだろうか。目的のキーワードが明確に分かっていればいいのだが、「サーバサイド」か「サーバーサイド」か、「WindowsXP」か「Windows XP」か(“XP”の直前に半角スペースを含むかどうか)が分からなければ、両方検索するはめになってしまう。この種の悩みは、テキスト・エディタで文章を編集しているときや、大量のファイルから目的のキーワードを含むファイルを検索するときなど、何かしらテキスト検索を行うときには常について回る問題だ。

 ちょっと気の利いたツールであれば、そんなニーズに応えて「あいまい検索」と呼ばれる機能を備えた製品が少なくないが、これは平仮名とカタカナ(「あ」と「ア」)、全角文字と半角文字(「A」と「A」)の違いを吸収するなど、柔軟ながらも固定的な検索ルールが追加されるにすぎないので、前述した例のようなケースまで解決する手段にはならない。

 そこで「正規表現」である。正規表現とは、指定した文字列そのものを検索するのではなく、ある種の記号を組み合わせて、目的のキーワードをパターンとして表現する手段である。例えば、先の例ならば「サーバー?サイド」と「Windows\s*XP」を検索すれば長音の有無やスペースの有無を無視して、両方の文字列を発見できる。

 この検索文字列に含まれる“?”や“*”が、正規表現の「メタ文字」と呼ばれる特殊な記号である。“?”は「直前の要素(文字)はあってもなくても構わない」を意味するので、「サーバー?サイド」とすれば、「サーバーサイド」と「サーバサイド」の両方にマッチさせることができる。また、“\s*”は「0個以上の空白文字」を意味しているので、「Windows\s*XP」は「Windows XP」と「WindowsXP」の両方にマッチする(途中のスペースはいくつあってもいい)。

 正規表現では、この種のメタ文字がいくつも用意されていて、柔軟に検索キーワードを表現できるようになっている。が、その柔軟性ゆえに、目的のテキストにマッチするパターンを即座に表現できるようになるには、それなりの修練を必要とする。それに、正規表現を見て、それがどの文字列にマッチするのか判断するのもなかなかに難しい。例えば以下の正規表現を見て、どんな文字列にマッチするか分かるだろうか? (答えは本稿の最後に示す)

  ^(?:(?<1>"[^"]*"),?|(?<1>[^,]+),?|,)*

 しかし、正規表現をうまく使いこなせば、数十行のコードにも匹敵するテキスト処理をたったの数行で実現することも可能になる。ぜひともマスターして、プログラムに生かしたいスキルの1つである。

 そして幸運(?)にも、.NET Frameworkのクラス・ライブラリには正規表現のためのライブラリが標準で用意されている。本稿ではまず正規表現の基礎について解説し、次回後編では正規表現を扱う.NETのクラス・ライブラリの活用について解説する。

 

 INDEX
  [基礎解説]スマートな文字列処理のための正規表現入門(前編)
  1.正規表現とは
    2.正規表現の活用法とregexコマンド
    3.メタ文字(1) - 通常文字、[ 〜 ]
    4.メタ文字(2) - 量指定子(*、+)、ピリオド、?、( | )
 

ホワイトペーパーTechTargetジャパン

Insider.NET フォーラム 新着記事

@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

RSSフィード

スキルアップ/キャリアアップ(JOB@IT)

- PR -
- PR -

お勧め求人情報

キャリアアップ 〜JOB@IT
@IT Special -PR-
  TomcatやJBossなどAPサーバ環境に関する
情報を集約! “業務”用APサーバ大百科

New!
  一気に解説! 最新のクラスタストレージ
「RAIDを超えたストレージ基準」……など

New!
  クラウド的ユーザー体験の変化は脅威か?
仮想化技術を使いこなす運用管理術を紹介

New!

  上司や部下、部署内メンバーとの情報共有
を“ガラッ”と変えるコラボツールとは?

New!
  おばかアプリ選手権、第4弾開催中!!
ムダにカッコよくてくだらない作品求ム!

  社内ファイルサーバを“クラウド”に統合
VPN直結「クラウド型ストレージ」を紹介

  Twitterのアカウントはなぜ突破された?
メールによる新手の攻撃手法とその対策

  もう仮想化のお試しフェイズは終わりだ!
Hyper-V 2.0が基幹システムも仮想化

  美人!? まあまあ? 気になる いやし系!!
PV急増で「美人時計」がとった手段とは?

  クライアント企業から求められる人材
⇒IT技術と経営戦略を併せ持つ「戦略家」

  .NET編集長が実践する「技術情報検索術」
サンプル・コードを簡単に探す“技”は?

  業務効率と情報セキュリティ対策を両立!
手間なく確実に機密情報を守る方法とは?

  進化を続ける富士通ストレージETERNUS DX
製品開発者の自信を裏付けるものとは何か

  運用管理の課題を“2つの観点”から分析
ユーザー満足度の高い「仮想環境」とは?

  【CTC事例】約30の基幹システムを統合!
膨大なバッジジョブを制御した方法は?

  仮想化すればコストは削減できるか?
仮想化に必要な「3つの視点」を解説する

  その数、なんと400台以上! グループ内
サーバの「統合管理」によるメリットは?