mieki256's diary



2004/08/22() [n年前の日記]

#1 [windows][pdf] pdftohtmlを試してみた

_『pdftohtml(pdfからhtml形式に変換)』 を参考にしながら、Win32版 pdftohtml-0.36 win32 をDL。また、GUIで変換時のオプション指定ができるように、 _PDF2HTMLgui もDL。解凍フォルダに、pdftohtml 関連ファイルをコピー。PDF2HTMLgui を動作させる際に Ghostscript が必要らしいので、 _『Ghostscript 8.14 + GSview 4.6 の日本語版』 を参考にしながら、Ghostscript 8.14 を導入。

コマンドラインから利用する為には、path を通す必要があるけれど。バッチファイルを作って、利用する前に、その都度 path を追加することにした。

_『PDFTOHTML conversion program』 においてある pdf を、-c をつけながら変換した場合、たしかにそれらしく変換できたけど。 日本語pdfを変換してみたら文字が出てこない。 _xpdf とやらが必要と目にしたので、xpdf-3.00-win32.zip、xpdf-japanese.tar.gz をDL。…したのだけど、linux関係の設定方法しか見当たらず。win32版はどうすればいいのやら。

_『Namazuで検索する(Windows編)』 で、xpdfrc 内の書き方が。windows の path の記述、「c:\xxx\xxxx」に合わせればいいのか。 xpdfrc の置き場所も間違えてた。~/ に置くのですな。

pdftohtml -c -enc Shift-JIS xxx.pdf
と打ってみた。おお。日本語キター。しかし文字が小さい。このへんは手打ちで修正かな。

-zoom 3 ぐらいをオプションで与えたら、少しは読めるようになった。ページは大きくなるけど。しかし微妙に文字の位置がずれてる。

xpdfrc内の :

textEncoding を Shift-JIS にしておけば、いちいち -enc をつけなくてもいいのか。

Shift-JIS を指定すると、数字等が全角になってしまう。EUC-JP や UTF-8 なら半角数字になるみたい。

あー、問題が :

表の罫線・その他が、1枚の背景画像として生成されてる。これはちょっと…。たしかに見栄えはpdfのソレに近いが。容量も、pdfの3倍ぐらいに増えた。うーん。どうしたらいいんだ。うーん。手詰まりかなー。

Adobe Reader から表だけでもコピペできないかと思ったけど :

よくわからないところが選択されてしまうので、そもそも選択できない。

htmlに変換したものからコピーできないかと思ったが、必ずしも表示されてる順で列挙されてないらしい。ソース内の記述位置がバラバラで、それを座標指定で、見た目だけは表に見えるようにしてるだけ。これではコピーできない。

なら、OCRで…。表を表として認識できて、WinXP上で動作するOCRソフトなんて持ってなかった。うーん。

以上です。

過去ログ表示

Prev - 2004/08 - Next
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

カテゴリで表示

検索機能は Namazu for hns で提供されています。(詳細指定/ヘルプ


注意: 現在使用の日記自動生成システムは Version 2.19.6 です。
公開されている日記自動生成システムは Version 2.19.5 です。

Powered by hns-2.19.6, HyperNikkiSystem Project