以前友人から「PDFファイルに書いてある文字をWordとかにできないの?」って訊かれて、速攻「できません!PDFは画像とおんなじだから、諦めて下さい」と言ってしまったことがあった。
それから数ヶ月が過ぎた訳だが、全然違う調べ物をしていて、Google先生とやり合っていたら、見付けちゃった。
まさしく「PDFファイルに書いてある文字をWordとかに」してくれちゃうサービス。しかもオンラインで!そして無料で!
 
↓そんな涙ぐましいサービスがこちら

Free Online OCR
 
www.free-online-ocr.com/

 

で、早速試してみました。

 

たまたまデスクトップに編集したまま放置されてた本ブログのスタイルシートをおもむろにPDF化して、Free Online OCRでTXT形式に変換してみました。
 
 
1.元のテキストファイルをキャプチャしたものがこちら

(赤いアンダーラインはスペルチェックなので気にしないで下さい)

 
 
2.それをPDFに書き出したファイルがこちら

余白とか、いい感じにしてくれて、且つA4サイズに区切って2ページにしてくれてます、自動で。
 
 
3.このPDFファイルをFree Online OCRのサイトでもう一度TXTファイルに戻してみます。

(思ったより時間がかかる!)
 
 
4.するってぇとこんな感じ!

ぱっと見た目は全然行けてるじゃん!と思うのですが、よーく見るとあれ?と思う点が多々。
主に文末などに「’」や「.」など、不要な文字が見当たります。
あと、当然と言えば当然ですが、PDF当時に改ページや(見た目上)改行されていた部分は素直にそのまま反映されていますね。
 
 
以上の点を踏まえると、
 

  • 変換に結構時間がかかるので、ページ数が大量のPDFを変換するのはちょっと怖い
  • 要らない文字や改行/改ページが挿入される場合があるので、理系/システム系の文書には向かない

 
と言えるのではなかろうか。
でも、何かしらの理由があって、人に見せる訳じゃないけど、個人的にPDFからドキュメントにちょこっと変換したい場合なんかはとても便利なサービスだと思いました。
 
 
よくよく考えてみると、短いコンテンツなら、PDFの文字列を選択してcontrol+クリック(右クリック)で「コピー」してドキュメントに貼付ければ済むんじゃね?とも思ったんだけどね(その方が早いし・・・)。しかし、なんであれ、PDFからコピペすると、変なところで改行入ったりするんですかね。色々一長一短ですな。
 
 

§743 · Posted By · 6月 9, 2012 · Review · Tags: · [Print]