
第6回 使うほどに良さが分かる正規表現
最初は訳が分からないが、慣れると大変重宝する。ある意味UNIXの象徴ともいえるのが「正規表現」だ。正規表現をすべて究める必要はないが、知っていると便利なことが多い。
関野史朗
2001/12/4
正規表現ってナニモノ?
正規表現というと何やら難しそうですが、要するに文字列を指定する方法です。Windowsではファイル名を指定するとき、複数の文字と一致する「*」、任意の1文字と一致する「?」が使えます。例えば、「拡張子がwavのファイル」だったら「*.wav」とするわけです。Windowsでは、この「*」や「?」を「ワイルドカード」と呼んでいます。これを強化したものが正規表現だと考えればいいでしょう。ただし、柔軟な指定が可能な分だけ複雑になっています。
正規表現を覚えるとどんなときに便利なのか、簡単な例を挙げてみましょう。例えば、きれいに整形されてインデントの付いたテキストファイルをHTML化したいとしましょう。そのまま<PRE>タグを使うのも手ですが、やはりちゃんとしたHTMLにするには行頭の空白を削除したうえで単語の途中で改行しないようにする必要があります(たいていのWebブラウザは改行を空白として扱います。単語の途中に空白が入っていると、見た目がよろしくありません)。しかし、段落によってインデント数は違うし、行の途中に空白があるかもしれません。これでは、単純に空白を全部削除するわけにはいきません。しかし正規表現なら、「行の先頭から続く空白」という指定ができるので、これをヌル文字で置き換えれば目的が達成できるわけです。多くのWindowsアプリケーションに実装されている単純な置換コマンドではとてもこうはいきません。
|
この正規表現は、カーネルの機能ではありません。一応、POSIX 1003.2でBasic Regular ExpressionとExtended Regular Expressionが定義されています。しかし、実際には文字列を扱うのに便利なことからvi、Emacs、sed、awk、Perl、Rubyといった個々のプログラムがそれぞれに実装しているというのが実情です。ライブラリも複数存在しています。Windowsでも秀丸エディタなど、正規表現をサポートしているプログラムがあります。この辺を含めて、プログラムによって細かいところが微妙に違ってきます。これはもうオンラインマニュアルやヘルプを参照しつつ、慣れるしかありません。今回は広く普及している部分を基本に、プログラムによって違う場合には注釈を入れて紹介します。
|
1/2
|
| Index | |
| Windowsユーザーに教えるLinuxの常識 | |
| 正規表現ってナニモノ? | |
| 初歩的なパターン指定 ちょっとした応用編 |
|
| 連載 Windowsユーザーに教える Linuxの常識 |
| Linux Squareフォーラム Linux/システム学習関連記事 |
| 連載:Windowsユーザーに教えるLinuxの常識(全12回) Windowsのセオリーが通用しないLinux。Linux初心者向けに、LinuxというOSの考え方/常識をゼロから伝授! |
|
| 連載:LFSで作って学ぶLinuxの仕組み(全4回) 管理者(root)は、何をしなければならないのか? 管理に際して検討すべきことは? 管理のための技術とは? など、駆け出し管理者のための考え方や方法論を検討する |
|
| 連載:Linux管理者への道(全8回) 「Linux From Scratch」というシンプルなLinuxをインストール&環境構築する作業を通して、LinuxがOSとして機能するための仕組みや設定を見直そう |
|
| Linux Squareフォーラム全記事インデックス |
|
TechTargetジャパン
- 新しい記事も入っていて安心しました (2012/2/7)
Linux Squareのアクセスランキングを公開します。定番の記事ばかりでなく、連載中の記事もよろしくお願いいたします - エラーメッセージをどう扱うか? (2012/2/2)
今回は、スクリプト実行時にエラーが発生したことを知らせるメッセージの扱い方を説明します - ファイルのアップロードを制限する (2012/1/30)
HTTPクライアントがアップロードしてくるファイルの扱いについて解説します。そもそも受け入れる必要があるのか? ということのほかにも、いろいろ設定が必要です - OSに付属するシェルスクリプトを読んで技術を盗む (2012/1/27)
シェルスクリプトマスターに近づくには、他人から技術を盗まなければならない。OS付属のスクリプトから技術を盗もう
|
|
キャリアアップ
スポンサーからのお知らせ
- - PR -
イベントカレンダー
- - PR -
