またしても罠にハマった…orz(死語(死語(ry

poppler-utils をインストールすると pdftotext でPDFのテキストを抽出できるようになる。
これは色んな記事があるのでここでは触れません。

えーと、結論から言うと、下記でできます。
pdftoppm -jpeg hoge.pdf hoge

これで、下記のようにページごとに出力される。
  hoge-1.jpg
  hoge-2.jpg
  hoge-3.jpg
  ...


以下、恒例の蛇足。。。


pdftotext のノリで、画像に変換するのも pdftojpeg とか pdftoimage な感じでできるよねー(^ω^*)
なんて、のんきに考えていたら、ないでわないかっ!

ググると、「pdf2image」といういかにもそれっぽい名前のpythonのプログラムが見つかるのだが、これが罠(私にとっては、ね…世間一般的には役に立つプログラムなんだと思われまする)。
おーい、python版しかないのー?PHP版を探せー!
っで、小一時間ほどだったかなぁ、無駄にしましたよ。。

ググっている中で、『「pdf2image」てのがあるけど、poppler標準コマンドで十分やん』と仰っている記事を発見。「pdfimages」というコマンドで画像が取り出せると!
早速試してみよー!
…画像が沢山取り出せました。。。
どうやらこのコマンドは「PDFで使われている画像を取り出す」もの。
わしが求めておるのは「PDFのページを1枚絵として画像に変換」。
ちゃうやんけー!

っで、またまたググりまくりんぐ。。
もう諦めかけたころ…もう一度popplerのコマンドが何があるか確認しよう。と、ふと思い立った。
そこで「pdftoppm」というコマンドが気になった。
というのも、前述の記事内で「pdfimages」で画像を取り出した際、拡張子「ppm」なファイルができて、『今時ppmって…』みたいなことが書かれていたのを思い出した。
実際当方では出てきたのは「pbm」ファイルだったと記憶しているが、その拡張子でググってみてもいたのだ。
その結果、ppmとかpbmファイルは、主にUNIXで用いられていた画像ファイル、という感じだとわかった。
そう、ppmは画像ファイル。ということは、一旦ppmにしてそこからjpgなりpngに変換すればいいんじゃねーの?と思ったわけだ。

結果は、そうはいかなかった。
裏切られた。
いい意味で。

「pdftoppm」コマンドのオプションに-jpegとか-pngとかありやがる。。。
はい、このコマンドを使えば、我が望みの『ページごとの1枚絵の画像ファイル』が出力できましたとさ。
ちゃんちゃん、おしまい。

もうね、「pdftoppm」じゃなくて「pdftoimage」に改名してくれよな、、、して下さい!
ppmが画像ファイルと知っている人間なんて、人工の何パーセントよ?