Macの標準機能で、PDF書籍をテキストファイルに変換する

PDFの電子書籍を翻訳したり、PDF書籍を参考にemacsでソースコードを書いたりするときに、PDF内のソースコードや文章のコピー&ペーストが面倒でした。PDFからテキストデータだけを一気に抽出できないかな?と探していたら、Mac標準のAutomatorで超簡単にできることが分かりビックリした。ネタ元はこちらの記事。

元記事が文章だけで書かれているので、画面キャプチャで再現すると以下のステップ。

MacでAutomatorを起動する

Automator

  • 新規ワークフローで『カスタム』を選び『選択』をクリックする

Automatorでアプリケーションを作成

automater-pdf1

  • 『ライブラリ』から『PDF』を選択。
  • 『PDFテキストを取り出す』を右側にドラックする。
  • 出力形式などの設定項目を指定。

Automatorでアプリケーションとして保存

Automator-pdf-save

  • メニューの『ファイル』から、『別名で保存』を選択。
  • 名前をつけて、『フォーマット』に『アプリケーション』を選択して保存。

PDFをTextファイルに変換する

FinderScreenSnapz001.png
  • デスクトップに保存したAutomatorアプリケーションに、PDFファイルをドラッグ&ドロップする。
  • PDFファイル全体が、テキストファイルとして保存される。

テキストファイルとして開く

pdf-txt-emacs

  • テキストファイルをemacsで開いたり、リッチテキストファイルをワードで開いたり。
  • emacs で自由に検索や、コピー&ペースト、さらには正規表現を用いた強力なテキスト処理を実行できます。