2004/08/22(日) [n年前の日記]
#1 [windows][pdf] pdftohtmlを試してみた
_『pdftohtml(pdfからhtml形式に変換)』
を参考にしながら、Win32版 pdftohtml-0.36 win32 をDL。また、GUIで変換時のオプション指定ができるように、
_PDF2HTMLgui
もDL。解凍フォルダに、pdftohtml 関連ファイルをコピー。PDF2HTMLgui を動作させる際に Ghostscript が必要らしいので、
_『Ghostscript 8.14 + GSview 4.6 の日本語版』
を参考にしながら、Ghostscript 8.14 を導入。
コマンドラインから利用する為には、path を通す必要があるけれど。バッチファイルを作って、利用する前に、その都度 path を追加することにした。
_『PDFTOHTML conversion program』 においてある pdf を、-c をつけながら変換した場合、たしかにそれらしく変換できたけど。 日本語pdfを変換してみたら文字が出てこない。 _xpdf とやらが必要と目にしたので、xpdf-3.00-win32.zip、xpdf-japanese.tar.gz をDL。…したのだけど、linux関係の設定方法しか見当たらず。win32版はどうすればいいのやら。
_『Namazuで検索する(Windows編)』 で、xpdfrc 内の書き方が。windows の path の記述、「c:\xxx\xxxx」に合わせればいいのか。 xpdfrc の置き場所も間違えてた。~/ に置くのですな。
-zoom 3 ぐらいをオプションで与えたら、少しは読めるようになった。ページは大きくなるけど。しかし微妙に文字の位置がずれてる。
コマンドラインから利用する為には、path を通す必要があるけれど。バッチファイルを作って、利用する前に、その都度 path を追加することにした。
_『PDFTOHTML conversion program』 においてある pdf を、-c をつけながら変換した場合、たしかにそれらしく変換できたけど。 日本語pdfを変換してみたら文字が出てこない。 _xpdf とやらが必要と目にしたので、xpdf-3.00-win32.zip、xpdf-japanese.tar.gz をDL。…したのだけど、linux関係の設定方法しか見当たらず。win32版はどうすればいいのやら。
_『Namazuで検索する(Windows編)』 で、xpdfrc 内の書き方が。windows の path の記述、「c:\xxx\xxxx」に合わせればいいのか。 xpdfrc の置き場所も間違えてた。~/ に置くのですな。
pdftohtml -c -enc Shift-JIS xxx.pdfと打ってみた。おお。日本語キター。しかし文字が小さい。このへんは手打ちで修正かな。
-zoom 3 ぐらいをオプションで与えたら、少しは読めるようになった。ページは大きくなるけど。しかし微妙に文字の位置がずれてる。
◎ xpdfrc内の :
textEncoding を Shift-JIS にしておけば、いちいち -enc をつけなくてもいいのか。
Shift-JIS を指定すると、数字等が全角になってしまう。EUC-JP や UTF-8 なら半角数字になるみたい。
Shift-JIS を指定すると、数字等が全角になってしまう。EUC-JP や UTF-8 なら半角数字になるみたい。
◎ あー、問題が :
表の罫線・その他が、1枚の背景画像として生成されてる。これはちょっと…。たしかに見栄えはpdfのソレに近いが。容量も、pdfの3倍ぐらいに増えた。うーん。どうしたらいいんだ。うーん。手詰まりかなー。
◎ Adobe Reader から表だけでもコピペできないかと思ったけど :
よくわからないところが選択されてしまうので、そもそも選択できない。
htmlに変換したものからコピーできないかと思ったが、必ずしも表示されてる順で列挙されてないらしい。ソース内の記述位置がバラバラで、それを座標指定で、見た目だけは表に見えるようにしてるだけ。これではコピーできない。
なら、OCRで…。表を表として認識できて、WinXP上で動作するOCRソフトなんて持ってなかった。うーん。
htmlに変換したものからコピーできないかと思ったが、必ずしも表示されてる順で列挙されてないらしい。ソース内の記述位置がバラバラで、それを座標指定で、見た目だけは表に見えるようにしてるだけ。これではコピーできない。
なら、OCRで…。表を表として認識できて、WinXP上で動作するOCRソフトなんて持ってなかった。うーん。
[ ツッコむ ]
以上です。