pdftotextでPDFを文字列化

最近の人工知能ブームでテキストマイニングから法則を発見するといったこともしばしば行うようになってきました。
PDFから文字列を抽出する方法をメモっておきます

環境

  • mac os 10.11

インストール

まずはpdftotextをインストールします

このまま実行するとエラーになります

こちらを参考に修正します

実行

2ページ目から出力してみます。

test.txtというファイル名で作成されます