Linux Tips

OpenOffice.orgのファイルからテキストを抽出するには

北浦訓行
2008/1/29

 OpenOffice.orgのファイルの内容をちょっと確認したいときには、ooo2txt(http://ooo2txt.fr.st/)というツールを使うと便利だ。Fedora 8の場合は、リポジトリにパッケージが用意されているので、yumコマンドでインストールすることができる。

# yum install ooo2txt

 インストールが完了したら、すぐにooo2txtコマンドを実行できる。OpenOffice.orgのデータであれば、WriterやCalc、Impressなどいずれのファイルでもテキストに変更できる。

 ここでは、Linux Tipsの過去の原稿をOpenOffice.org Writerに張り付けて、サンプルの文書を作成した。

[ユーザ]パネル
OpenOffice.org Writerのサンプル文書

 ooo2txtコマンドの書式は簡単で、引数としてOpenOffice.orgのファイルを指定するだけでいい。ただし、-eオプションでエンコーディングを指定しないと、以下のようにエラーが表示されてしまう。

$ ooo2txt test.odt
Wide character in print at /usr/bin/ooo2txt line 123.

  Fedora 7およびFedora 8のLive CDは、USBフラッシュメモリ(USBメモリ)にインストールすることができる。USBメモリにインストールすれば、CDメディアよりも高速に起動することができるし、CD-Rメディアを消費することもない。

Wide character in print at /usr/bin/ooo2txt line 123.
  ここでは、Fedora 8のLive CDをUSBメモリにインストールする方法を説明する。
(省略)

 これを回避するには、-eオプションでエンコーディングを指定すればいい。

$ ooo2txt -eUTF-8 test.odt

  Fedora 7およびFedora 8のLive CDは、USBフラッシュメモリ(USBメモリ)にインストールすることができる。USBメモリにインストールすれば、CDメディアよりも高速に起動することができるし、CD-Rメディアを消費することもない。
  ここでは、Fedora 8のLive CDをUSBメモリにインストールする方法を説明する。
(省略)

 すると、このようにエラーが表示されなくなる。エンコーディングとしては「UTF-8」や「EUC_JP」「Shift_JIS」「JIS」などを指定できる(大文字、小文字は判別しない)。

 また、以下のように指定すれば、エラー出力を/dev/nullに送ることもできる。

$ ooo2txt test.odt 2> /dev/null
(省略)

【関連記事】
OpenOffice.orgを使うには

Linux Tips Index



 Linux Squareフォーラム Linux Tipsカテゴリ別インデックス
インストール/RPM ブート/ブートローダ
ファイル操作 環境設定
ユーザー管理 コンソール/ターミナル
X Window System セキュリティ
トラブルシューティング 他OS関係
ネットワーク ハードウェア
Webサーバ Samba
GNOME KDE
OpenOffice.org エミュレータ
ソフトウェア そのほか/FAQ
全Tips公開順インデックス Linux Tips月間ランキング
Linux Squareフォーラム全記事インデックス

MONOist組み込み開発フォーラムの中から、Linux関連記事を紹介します


Linux & OSS フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Linux & OSS 記事ランキング

本日 月間