mieki256's diary

mieki256's diary

2004/08/22(日) [n年前の日記]

2004/08/22(日) [n年前の日記]

2004/08/22(日) [n年前の日記]

#1 [windows][pdf] pdftohtmlを試してみた

#1 [windows][pdf] pdftohtmlを試してみた

最近の日記

検索

過去ログ表示

#1 [windows][pdf] pdftohtmlを試してみた

最近の日記

カテゴリ一覧

検索

過去ログ表示

◎ xpdfrc内の :

◎ あー、問題が :

◎ Adobe Reader から表だけでもコピペできないかと思ったけど :

◎ xpdfrc内の :

◎ あー、問題が :

◎ Adobe Reader から表だけでもコピペできないかと思ったけど :

◎ xpdfrc内の :

◎ あー、問題が :

◎ Adobe Reader から表だけでもコピペできないかと思ったけど :

_『pdftohtml(pdfからhtml形式に変換)』を参考にしながら、Win32版 pdftohtml-0.36 win32 をDL。また、GUIで変換時のオプション指定ができるように、 _PDF2HTMLgui もDL。解凍フォルダに、pdftohtml 関連ファイルをコピー。PDF2HTMLgui を動作させる際に Ghostscript が必要らしいので、 _『Ghostscript 8.14 + GSview 4.6 の日本語版』を参考にしながら、Ghostscript 8.14 を導入。

コマンドラインから利用する為には、path を通す必要があるけれど。バッチファイルを作って、利用する前に、その都度 path を追加することにした。

_『PDFTOHTML conversion program』においてある pdf を、-c をつけながら変換した場合、たしかにそれらしく変換できたけど。日本語pdfを変換してみたら文字が出てこない。 _xpdf とやらが必要と目にしたので、xpdf-3.00-win32.zip、xpdf-japanese.tar.gz をDL。…したのだけど、linux関係の設定方法しか見当たらず。win32版はどうすればいいのやら。

_『Namazuで検索する(Windows編)』で、xpdfrc 内の書き方が。windows の path の記述、「c:\xxx\xxxx」に合わせればいいのか。 xpdfrc の置き場所も間違えてた。~/ に置くのですな。

pdftohtml -c -enc Shift-JIS xxx.pdf

と打ってみた。おお。日本語キター。しかし文字が小さい。このへんは手打ちで修正かな。

-zoom 3 ぐらいをオプションで与えたら、少しは読めるようになった。ページは大きくなるけど。しかし微妙に文字の位置がずれてる。

textEncoding を Shift-JIS にしておけば、いちいち -enc をつけなくてもいいのか。

Shift-JIS を指定すると、数字等が全角になってしまう。EUC-JP や UTF-8 なら半角数字になるみたい。

表の罫線・その他が、1枚の背景画像として生成されてる。これはちょっと…。たしかに見栄えはpdfのソレに近いが。容量も、pdfの3倍ぐらいに増えた。うーん。どうしたらいいんだ。うーん。手詰まりかなー。

よくわからないところが選択されてしまうので、そもそも選択できない。

htmlに変換したものからコピーできないかと思ったが、必ずしも表示されてる順で列挙されてないらしい。ソース内の記述位置がバラバラで、それを座標指定で、見た目だけは表に見えるようにしてるだけ。これではコピーできない。

なら、OCRで…。表を表として認識できて、WinXP上で動作するOCRソフトなんて持ってなかった。うーん。

[ ツッコむ ]

以上です。

Prev - 2004/08 - Next