2004/08/22(日) [n年前の日記]
#1 [windows][pdf] pdftohtmlを試してみた
_『pdftohtml(pdfからhtml形式に変換)』
を参考にしながら、Win32版 pdftohtml-0.36 win32 をDL。また、GUIで変換時のオプション指定ができるように、
_PDF2HTMLgui
もDL。解凍フォルダに、pdftohtml 関連ファイルをコピー。PDF2HTMLgui を動作させる際に Ghostscript が必要らしいので、
_『Ghostscript 8.14 + GSview 4.6 の日本語版』
を参考にしながら、Ghostscript 8.14 を導入。
コマンドラインから利用する為には、path を通す必要があるけれど。バッチファイルを作って、利用する前に、その都度 path を追加することにした。
_『PDFTOHTML conversion program』 においてある pdf を、-c をつけながら変換した場合、たしかにそれらしく変換できたけど。 日本語pdfを変換してみたら文字が出てこない。 _xpdf とやらが必要と目にしたので、xpdf-3.00-win32.zip、xpdf-japanese.tar.gz をDL。…したのだけど、linux関係の設定方法しか見当たらず。win32版はどうすればいいのやら。
_『Namazuで検索する(Windows編)』 で、xpdfrc 内の書き方が。windows の path の記述、「c:\xxx\xxxx」に合わせればいいのか。 xpdfrc の置き場所も間違えてた。~/ に置くのですな。
-zoom 3 ぐらいをオプションで与えたら、少しは読めるようになった。ページは大きくなるけど。しかし微妙に文字の位置がずれてる。
コマンドラインから利用する為には、path を通す必要があるけれど。バッチファイルを作って、利用する前に、その都度 path を追加することにした。
_『PDFTOHTML conversion program』 においてある pdf を、-c をつけながら変換した場合、たしかにそれらしく変換できたけど。 日本語pdfを変換してみたら文字が出てこない。 _xpdf とやらが必要と目にしたので、xpdf-3.00-win32.zip、xpdf-japanese.tar.gz をDL。…したのだけど、linux関係の設定方法しか見当たらず。win32版はどうすればいいのやら。
_『Namazuで検索する(Windows編)』 で、xpdfrc 内の書き方が。windows の path の記述、「c:\xxx\xxxx」に合わせればいいのか。 xpdfrc の置き場所も間違えてた。~/ に置くのですな。
pdftohtml -c -enc Shift-JIS xxx.pdfと打ってみた。おお。日本語キター。しかし文字が小さい。このへんは手打ちで修正かな。
-zoom 3 ぐらいをオプションで与えたら、少しは読めるようになった。ページは大きくなるけど。しかし微妙に文字の位置がずれてる。
◎ xpdfrc内の :
textEncoding を Shift-JIS にしておけば、いちいち -enc をつけなくてもいいのか。
Shift-JIS を指定すると、数字等が全角になってしまう。EUC-JP や UTF-8 なら半角数字になるみたい。
Shift-JIS を指定すると、数字等が全角になってしまう。EUC-JP や UTF-8 なら半角数字になるみたい。
◎ あー、問題が :
表の罫線・その他が、1枚の背景画像として生成されてる。これはちょっと…。たしかに見栄えはpdfのソレに近いが。容量も、pdfの3倍ぐらいに増えた。うーん。どうしたらいいんだ。うーん。手詰まりかなー。
◎ Adobe Reader から表だけでもコピペできないかと思ったけど :
よくわからないところが選択されてしまうので、そもそも選択できない。
htmlに変換したものからコピーできないかと思ったが、必ずしも表示されてる順で列挙されてないらしい。ソース内の記述位置がバラバラで、それを座標指定で、見た目だけは表に見えるようにしてるだけ。これではコピーできない。
なら、OCRで…。表を表として認識できて、WinXP上で動作するOCRソフトなんて持ってなかった。うーん。
htmlに変換したものからコピーできないかと思ったが、必ずしも表示されてる順で列挙されてないらしい。ソース内の記述位置がバラバラで、それを座標指定で、見た目だけは表に見えるようにしてるだけ。これではコピーできない。
なら、OCRで…。表を表として認識できて、WinXP上で動作するOCRソフトなんて持ってなかった。うーん。
[ ツッコむ ]
#2 [web] _バグを発見したと言わない
_賢い質問のしかた
「バグ」って言っちゃダメなのか。そこからしてダメじゃん… orz >自分。
「バグ」って言っちゃダメなのか。そこからしてダメじゃん… orz >自分。
◎ でも :
「バグ」という単語を聞いて気分を害してるのも、技術に携わる者としてはどうなのか、という気もほんのちょっとした。人間の作るものだもの。必ず「バグ」は出るはず。出るのがデフォルト。出て当たり前。むしろ、出ないほうが変。バグがある可能性を示唆されることは、技術に携わる者にとって、腹を立てるようなことなのだろうか。個人的には、なんか違う気もする。
◎ と思ったけど :
「バグ」という単語を含めた質問・報告をする事自体、質問者・報告者の推測の域を提示してる行為に他ならないのだな。質問・報告は、あくまで事実のみを正確に伝える必要がある、という基本ルールをふまえた場合、質問者・報告者の勝手な推測・主観を挿入するのはよろしくない。故に、『「バグ」という単語を入れることなかれ』とも言える。
[ ツッコむ ]
#3 [web] オナニープレイじゃセッションはできんのだよな
頭じゃ判ってるんだけど、オナニーは気持ちよすぎてなかなかやめられないという… (´Д`)
◎ ブ日記=ライブでありセッション :
であるからしてオナニープレイがありえる、という連想だったのだけど。リアルにはリアルの、ネットにはネットのセッションの仕方がありそうとも思った。匿名掲示板を眺めてると、なんとなくそう思う。
だからリアルで2chの話をすると嫌われるのか。異なるセッションの仕方を相手に要求するから。
だからリアルで2chの話をすると嫌われるのか。異なるセッションの仕方を相手に要求するから。
[ ツッコむ ]
以上、1 日分です。