＠IT：PDFファイルからテキストを抽出するには

Linux Tips

PDFファイルからテキストを抽出するには

北浦訓行
2005/6/2

　PDFファイルからテキストを抽出するには、pdftotextコマンドを使用する。pdftotextコマンドは、Xpdf（http://www.foolabs.com/xpdf/）に含まれている。Fedora Core 3（FC3）にはXpdfのパッケージが用意されており、

# yum install xpdf

でインストール可能だ。

　Xpdfのインストールが終わったら、設定を行う。全ユーザーに対して設定を有効にする場合は、rootで/etc/xpdfrcの

#textEncoding UTF-8

という行の「#」を削除して、コメントアウトを解除する。

　自分だけに有効な設定を行う場合は、ユーザーのホームディレクトリに.xpdfrcというファイルを作成し、

textEncoding UTF-8

と記述する（EUCのシステムの場合は「EUC-JP」）。

　以上で設定は完了だ。以下のコマンドを実行すると、PDFファイルに含まれるテキストを別ファイルに出力できる。

$ pdftotext sample.pdf sample.txt

　pdftotextコマンドは、textEncodingで指定した文字コードでテキストファイルを生成する。場合によって文字コードを変更したい場合は、-encオプションで適切な文字コードを指定する。

$ pdftotext -enc EUC-JP sample.pdf sample.euc　←EUCで出力

$ pdftotext -enc Shift-JIS sample.pdf sample.euc　←シフトJISで出力

　pdftotextコマンドでよく使用するオプションは、以下のとおり。

オプション	内容
-f 開始ページ	抽出開始ページを指定
-l 終了ページ	抽出終了ページを指定
-opw パスワード	オーナーパスワード（文書の印刷や編集などを制限するためのパスワード）を指定
-upw パスワード	ユーザーパスワード（文書を開くためのパスワード）を指定
-layout	オリジナルに近いレイアウトでテキストを出力
-htmlmeta	HTML形式で出力
-enc エンコード名	テキストファイルの文字コードを指定（UTF-8／EUC／Shift-JISなど）
-eol 行末の形式	end-of-lineの形式を指定（unix／dos／mac）

　Linux Squareフォーラム Linux Tipsカテゴリ別インデックス

	インストール／RPM		ブート／ブートローダ
	ファイル操作		環境設定
	ユーザー管理		コンソール／ターミナル
	X Window System		セキュリティ
	トラブルシューティング		他OS関係
	ネットワーク		ハードウェア
	Webサーバ		Samba
	GNOME		KDE
	OpenOffice.org		エミュレータ
	ソフトウェア		そのほか／FAQ
	全Tips公開順インデックス		Linux Tips月間ランキング
	Linux Squareフォーラム全記事インデックス

MONOist組み込み開発フォーラムの中から、Linux関連記事を紹介します

Linux ＆ OSS フォーラム新着記事

【 pidof 】コマンド――コマンド名からプロセスIDを探す （2017/7/27）
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、コマンド名からプロセスIDを探す「pidof」コマンドです。
Linuxの「ジョブコントロール」をマスターしよう （2017/7/21）
　今回は、コマンドライン環境でのジョブコントロールを試してみましょう。X環境を持たないサーバ管理やリモート接続時に役立つ操作です
【 pidstat 】コマンド――プロセスのリソース使用量を表示する （2017/7/21）
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、プロセスごとのCPUの使用率やI/Oデバイスの使用状況を表示する「pidstat」コマンドです。
【 iostat 】コマンド――I/Oデバイスの使用状況を表示する （2017/7/20）
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、I/Oデバイスの使用状況を表示する「iostat」コマンドです。

＠ITメールマガジン　新着情報やスタッフのコラムがメールで届きます（無料）

注目のテーマ

本日月間

＠IT