Linux Tips

PDFファイルからテキストを抽出するには

北浦訓行
2005/6/2

 PDFファイルからテキストを抽出するには、pdftotextコマンドを使用する。pdftotextコマンドは、Xpdfhttp://www.foolabs.com/xpdf/)に含まれている。Fedora Core 3(FC3)にはXpdfのパッケージが用意されており、

# yum install xpdf

でインストール可能だ。

 Xpdfのインストールが終わったら、設定を行う。全ユーザーに対して設定を有効にする場合は、rootで/etc/xpdfrc

#textEncoding UTF-8

という行の「#」を削除して、コメントアウトを解除する。

 自分だけに有効な設定を行う場合は、ユーザーのホームディレクトリに.xpdfrcというファイルを作成し、

textEncoding UTF-8

と記述する(EUCのシステムの場合は「EUC-JP」)。

 以上で設定は完了だ。以下のコマンドを実行すると、PDFファイルに含まれるテキストを別ファイルに出力できる。

$ pdftotext sample.pdf sample.txt

 pdftotextコマンドは、textEncodingで指定した文字コードでテキストファイルを生成する。場合によって文字コードを変更したい場合は、-encオプションで適切な文字コードを指定する。

$ pdftotext -enc EUC-JP sample.pdf sample.euc ←EUCで出力
$ pdftotext -enc Shift-JIS sample.pdf sample.euc ←シフトJISで出力

 pdftotextコマンドでよく使用するオプションは、以下のとおり。

オプション
内容
-f 開始ページ 抽出開始ページを指定
-l 終了ページ 抽出終了ページを指定
-opw パスワード オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定
-upw パスワード ユーザーパスワード(文書を開くためのパスワード)を指定
-layout オリジナルに近いレイアウトでテキストを出力
-htmlmeta HTML形式で出力
-enc エンコード名 テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど)
-eol 行末の形式 end-of-lineの形式を指定(unix/dos/mac)

Linux Tips Index



 Linux Squareフォーラム Linux Tipsカテゴリ別インデックス
インストール/RPM ブート/ブートローダ
ファイル操作 環境設定
ユーザー管理 コンソール/ターミナル
X Window System セキュリティ
トラブルシューティング 他OS関係
ネットワーク ハードウェア
Webサーバ Samba
GNOME KDE
OpenOffice.org エミュレータ
ソフトウェア そのほか/FAQ
全Tips公開順インデックス Linux Tips月間ランキング
Linux Squareフォーラム全記事インデックス

MONOist組み込み開発フォーラムの中から、Linux関連記事を紹介します


Linux & OSS フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Linux & OSS 記事ランキング

本日 月間