PDFからプレーンテキストを抜き取る(pdftotext)コマンドなんかが使えるようになるライブラリー = Xpdf のインストールでちょっとハマったのでメモ。
環境は Mac OS X Mountain Lion。
結果から言うと、なぜかMacPortsでもHomeBrewでもうまく行かず、結局バイナリーからインストールしました。
まずはXpdfのホームページから2つの圧縮ファイルをダウンロード。
www.foolabs.com/xpdf/download.html
- xpdf-3.xx.tar.gz: the source code
- Japanese: xpdf-japanese.tar.gz
あとはターミナルで、
$ tar xzvf /download_dir/xpdf-3.xx.tar.gz $ cd /download_dir/xpdf-3.xx $ ./configure $ make $ sudo make install
これでXpdfのインストールは完了
次に、Japaneseパッチをあてる。
$ tar xzvf /download_dir/xpdf-japanese.tar.gz $ cd /download_dir $ sudo mkdir /usr/local/share/xpdf $ sudo mv xpdf-japanese /usr/local/share/xpdf/japanese # /usr/local/etc/xpdfrc という設定ファイルに # /usr/local/share/xpdf/japanese/add-to-xpdfrc の # 内容を追加します。 $ sudo vi /usr/local/etc/xpdfrc # ここからはVim内のコマンドで # 目的のファイルから読み込んで最後に追加 :$r !sed -n '1,$p' /usr/local/share/xpdf/japanese/add-to-xpdfrc # あとは、w, x, ZZなどで保存して閉じる
ここまで出来れば、
$ which pdftotext /usr/local/bin/pdftotext
うん。ちゃんと入ってる。
ちなみにXpdfをインストールすると、
$ pdftotext -enc UTF-8 IN_some_PDF_file.pdf OUT_file.txt
の1行でPDFファイルから中に含まれる文字列をプレーンテキストに書き出すことができます。
データ解析とかするときに、受け取った資料がPDFしかなかった場合なんかすごく便利です。
参考にさせていただいたブログ