データを加工して圧縮率を高めよう：コーディングに役立つ！アルゴリズムの基本（9）（1/5 ページ）

プログラマたるものアルゴリズムとデータ構造は知っていて当然の知識です。しかし、教科書的な知識しか知らなくて、実践的なプログラミングに役立てることができるでしょうか（編集部）

» 2009年04月02日 00時00分公開

[山下寛人，オイシックス株式会社]

圧縮率を上げるために、ひと工夫

　前回「データ量を操る圧縮／展開を究めよう」では、圧縮アルゴリズムの基本としてランレングス法とハフマン符号を紹介しました。今回は、データを圧縮しやすいように加工することで、より圧縮率を上げるアルゴリズムを紹介していきたいと思います。

　さて、圧縮率を上げるにはどうすればよいでしょうか。

　ランレングス法では、連続する文字列が多ければ多いほど圧縮率が高まります。ハフマン符号では、できるだけ特定の文字が多く出現するようになっていれば圧縮率が高まります。このようなデータの加工の手法を見ていきます。

ブロックソーティング

　まず、連続する文字列を多くするアルゴリズムを紹介します。ブロックソーティングと呼ばれる手法です。

　ブロックソーティングは、Burrows-Wheeler変換とも呼ばれます。この手法は、マイケル・バロウズ（Michael Burrows）とデビッド・ホイーラー（David Wheeler）が考案しました。bzip2の圧縮にも使われているアルゴリズムです。

　ブロックソーティングそのものはデータを圧縮するものではありません。データを並べ替えて連続するデータを増やし、圧縮しやすくするものです。

ブロックソーティングによる変換

　早速、ブロックソーティングとはどのようなものなのかを見ていきましょう。まず、変換の方法を紹介します。

　「abbac」という文字列があったとします。この文字列を、1文字左にローテーションすると、「bbaca」という文字列になります。さらに1文字ローテーションすると、「bacab」という文字列になります。

　この要領で文字数分ローテーションさせます。1文字ずつローテーションした文字列を縦に並べると5×5の正方形のブロックになります。

　このブロックを、一番左の列を基準にソートします。一番左の列の文字がすべて同じ場合は、左から2番目の列の文字を対象にします。左から2番目の列の文字も同じだった場合は、3番目、4番目と見ていきます。

　ソートした結果から、一番右の列の文字を上から取り出せば変換終了です。この例では「cbbaa」となります。また、元の文字列が何行目に出てきたかを記録しておきます。この例では1行目です。

　こうしてできたデータが、連続した文字が多くなるのはなぜでしょうか。英語の文章の場合、「the」などの頻繁に出てくる単語があります。ローテーションしてできた文字列の先頭が「he」の場合、末尾は「t」になっているケースが多くなるはずです。そうすると変換後の文字列では「t」が連続したものになる、ということです。