連載
» 2017年04月21日 05時00分 UPDATE

Linux基本コマンドTips(105):【 diff 】コマンド(応用編その2)――テキストファイルの差分を出力する

本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は「diff」コマンドです。

[西村めぐみ,@IT]
「Linux基本コマンドTips」のインデックス

連載目次

 本連載では、Linuxの基本的なコマンドについて、基本的な書式からオプション、具体的な実行例までを分かりやすく紹介していきます。今回はテキストファイルを比較して差分を出力する「diff」コマンドです。diffコマンドについては第102回(基本編)と、第103回(基本編その2)第104回(応用編)でも扱っています。

diffコマンドとは?

 「diff」は、2つのテキストファイルを比較し、異なる箇所を出力するコマンドです。「diff ファイル1 ファイル2」と実行して、2つのテキストファイル(ファイル1、ファイル2)を比較します。ディレクトリ単位で比較することも可能です。



diffコマンドの書式

diff [オプション] 対象1 対象2

※[ ]は省略可能な引数を示しています





diffコマンドの主なオプション

 diffコマンドのオプションを3種類に分けて紹介します。最初はコマンドの出力に関する主なオプションです。

短いオプション 長いオプション 意味
-c --context 違いのある箇所をファイルごとに出力し、!記号で変更箇所を示す(context形式、第103回参照
-C 行数 --context=行数 context形式で出力する行数を指定(デフォルトは3行)
-u --unified 違いのある箇所を1つにまとめて、-記号と+記号で変更箇所を示す(unified形式、第103回参照
-U 行数 --unified=行数 unified形式で出力する行数を指定(デフォルトは前後3行)
-行数 異なっている部分の前後の行数を指定(-cまたは-u指定時)
-L ラベル --label=ラベル context形式とunified形式のヘッダに、ファイル名の代わりに出力するラベル(短縮形式「-L」は非推奨、第103回参照
-p --show-c-function 変更がC言語のどの関数で行われたのかを表示する。「-F'^[_a-zA-Z$]'」相当
-F 正規表現 --show-function-line=正規表現 context形式とunified形式で、各差分のブロックに対し、その前方がパターンにマッチした最後の行の一部を表示
-T --initial-tab normal形式やcontext形式で、テキストの前にスペースでなくタブを出力する(行中でのタブによる桁ぞろえが見やすくなる)
-t --expand-tabs タブによる位置合わせを保存するため、出力のタブをスペースに展開する
--inhibit-hunk-merge 隣接する差分ブロックをマージしない
-D 名前 --ifdef=名前 if-then-else形式で出力する(“名前”はプリプロセッサの条件マクロで使用する名前)
--changed-group-format=フォーマット if-then-else形式で、両方のファイルで異なる行を出力する際のフォーマット
--line-format=フォーマット if-then-else形式で、全ての入力行を出力する際のフォーマット
--new-group-format=フォーマット if-then-else形式で、2番目のファイルだけにある行グループを出力する際のフォーマット
--new-line-format=フォーマット if-then-else形式で、2番目のファイルだけにある行の出力に使用するフォーマット
--old-group-format=フォーマット if-then-else形式で、1番目のファイルだけにある行グループを出力する際のフォーマット
--old-line-format=フォーマット if-then-else形式で、1番目のファイルだけにある行の出力に使用するフォーマット
--unchanged-group-format=フォーマット if-then-else形式で、両方のファイルに共通な行グループを出力する際のフォーマット
--unchanged-line-format=フォーマット if-then-else形式で、両方のファイルに共通な行の出力に使用するフォーマット
-y --side-by-side 2列で出力する(side-by-side)
-W 文字数 --width=文字数 side-by-side形式で出力する幅
--left-column side-by-side形式で、共通な行は左側の列にのみ表示する
--suppress-common-lines side-by-side形式で共通な行を表示しない
-e --ed edコマンドのスクリプト形式で出力する
-n --rcs RCS(バージョン管理システム)形式の差分を出力する
-l --paginate prコマンドによるページ付けを行う
--strip-trailing-cr 行末のCRを取り除く
-q --brief ファイルが違うかどうかだけを出力する
-s --report-identical-files 2つのファイルが同じだったときも出力する

 diffコマンドの比較方法に関する主なオプションは次の通りです。

短いオプション 長いオプション 意味
-i --ignore-case 大文字と小文字の違いを無視する
-B --ignore-blank-lines 空行の有無を無視する
-b --ignore-space-change スペースの数だけが異なる場合は違いを無視する
-E --ignore-tab-expansion タブ展開によるスペースの変更を無視する
-w --ignore-all-space 空白を無視して比較する
-I 正規表現 --ignore-matching-lines=正規表現 パターンにマッチするような行を挿入・削除するだけの変更を無視する
-H --speed-large-files 小さな変更が大量にあるような大きなファイルを高速に扱うためにヒューリスティックな手法を用いる(短縮形式「-H」は非推奨)
-d --minimal より小さな差分を生成する(動作が遅くなる)
--horizon-lines=行数 差分の前後にある共通部分を保持する行数
-a --text ファイルを強制的にテキストと見なして1行ずつ比較する

 diffコマンドのディレクトリ比較に関する主なオプションは次の通りです。

短いオプション 長いオプション 意味
-r --recursive ディレクトリを比較するとき、サブディレクトリも再帰的に比較する
-S ファイル名 --starting-file=ファイル名 ディレクトリを比較する際の開始ファイル(中断した比較を続行する際に利用)
--ignore-file-name-case ファイルを比較する際に、ファイル名の大文字小文字を無視する
--no-ignore-file-name-case ファイルを比較する際に、ファイル名の大文字小文字を考慮する
-N --new-file ディレクトリを比較する際、片方のディレクトリにのみファイルが存在していた場合、“新規ファイルとの比較”として動作する
-P --unidirectional-new-file 2番目のディレクトリにのみファイルが存在していた場合のみ、新規ファイルとの比較として動作する(短縮形式「-P」は非推奨)
-x パターン --exclude=パターン ディレクトリを比較する際に、除外するファイルを指定する
-X リスト --exclude-from=リスト ディレクトリを比較する際に、無視する名前のパターンが書かれたファイルを読み込む


空白を区別する

 「diff ファイル1 ファイル2」でテキストファイルを比較します。このとき、空白の有無による内容の違いを無視するかどうか、オプションで設定できます。

 タブ文字をスペースに展開(変更)した結果を無視する場合は「-E」、空白文字の数の違いを無視する場合は「-b」、空白の存在を無視して比較する場合は「-w」を使います。

 それぞれの違いを見てみましょう。

 list3-1.csvとlist3-2.csvは、内容がほぼ同じファイルです。違いは空白の種類と有無だけです(画面1)。1行目は同じに見えますが、list3-1.csvではタブが、list3-2.csvでは空白が入っています。タブが入っているかどうかは、catコマンドの-tオプション(連載第1回)で確認できます(画面2)。

画面1 画面1 catコマンドでlist3-1.csvとlist3-2.csvの内容を確認した
画面2 画面2 catコマンドの-tオプションでタブの有無を確認した。「^I」はタブを表している

 「-E」を指定すると、タブ展開によるスペースの変更を無視します。画面3には「apple」を含む1行目の違いを無視した結果を示しました。なお、テキストファイルのタブを空白文字に変換する場合はexpandコマンド(連載第61回)が便利です。

 「-b」の場合、空白文字の個数を無視します。“空白が入っているかどうか”という観点で、1行目(apple)と2行目(banana)を同一行とみなしています(画面4)。「-b」を指定しても、空白文字があるかないかを区別しますから、3行目(lemon)は異なっています。

 「-w」では、空白を全て無視します。このため、1〜3行目を同一行として扱い、「違いはない」という結果になります。違いがないことをはっきりメッセージとして表示するには「-s」オプションを付けて実行します(画面5)。

コマンド実行例

diff -E ファイル1 ファイル2

(タブ展開によるスペースの変更を無視する)(画面3

diff -b ファイル1 ファイル2

(スペースの数だけが異なる場合は違いを無視する)(画面4

diff -w ファイル1 ファイル2

(空白を無視して比較する)(画面5


画面3 画面3 -Eオプションを付けない場合(上)と付けた場合(下)の比較結果の違い
画面4 画面4 空白の個数を無視した結果
画面5 画面5 空白自体を無視した場合(上)と違いがないことを明示した結果(下)


筆者紹介

西村 めぐみ(にしむら めぐみ)

PC-9801NからのDOSユーザー(LinuxはPC-486DXから)。1992年より生産管理のパッケージソフトウェアの開発およびサポート業務を担当。のち退社し、ライターとして活動。著書に『図解でわかるLinux』『らぶらぶLinuxシリーズ』『はじめてでもわかるSQLとデータ設計』『シェルの基本テクニック』など。2011年より、地方自治体の在宅就業支援事業にてPC基礎およびMicrosoft Office関連の教材作成およびeラーニング指導を担当。


Copyright© 2017 ITmedia, Inc. All Rights Reserved.

@IT Special

- PR -

TechTargetジャパン

この記事に関連するホワイトペーパー

Focus

- PR -

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。