PDFからプレーンテキストを抜き取る(pdftotext)コマンドなんかが使えるようになるライブラリー = Xpdf のインストールでちょっとハマったのでメモ。
 
環境は Mac OS X Mountain Lion。
 
結果から言うと、なぜかMacPortsでもHomeBrewでもうまく行かず、結局バイナリーからインストールしました。
 

 
まずはXpdfのホームページから2つの圧縮ファイルをダウンロード。
 
www.foolabs.com/xpdf/download.html
 

  • xpdf-3.xx.tar.gz: the source code
  • Japanese: xpdf-japanese.tar.gz

 
あとはターミナルで、
 

$ tar xzvf /download_dir/xpdf-3.xx.tar.gz
$ cd /download_dir/xpdf-3.xx
$ ./configure
$ make
$ sudo make install

 
これでXpdfのインストールは完了
次に、Japaneseパッチをあてる。
 

$ tar xzvf /download_dir/xpdf-japanese.tar.gz
$ cd /download_dir
$ sudo mkdir /usr/local/share/xpdf
$ sudo mv xpdf-japanese /usr/local/share/xpdf/japanese
 
# /usr/local/etc/xpdfrc という設定ファイルに
# /usr/local/share/xpdf/japanese/add-to-xpdfrc の
# 内容を追加します。
 
$ sudo vi /usr/local/etc/xpdfrc
# ここからはVim内のコマンドで
# 目的のファイルから読み込んで最後に追加
:$r !sed -n '1,$p' /usr/local/share/xpdf/japanese/add-to-xpdfrc
# あとは、w, x, ZZなどで保存して閉じる

 
ここまで出来れば、
 

$ which pdftotext
/usr/local/bin/pdftotext

 
うん。ちゃんと入ってる。
 
ちなみにXpdfをインストールすると、
 

$ pdftotext -enc UTF-8 IN_some_PDF_file.pdf OUT_file.txt

 
の1行でPDFファイルから中に含まれる文字列をプレーンテキストに書き出すことができます。
 
データ解析とかするときに、受け取った資料がPDFしかなかった場合なんかすごく便利です。
 
 
参考にさせていただいたブログ

MacOS X 10.6 (Snow Leopard) ソフトウエア導入記録

 
 
 

§1091 · Posted By · 1月 26, 2013 · Development · Tags: , , , · [Print]