2008/03/31(月) [n年前の日記]
#1 [windows][pc] pandocの出力結果から数値文字参照を無くしたいのだけど
オプション指定でそういうモードがあったりしないか、と思ったけれどどうも無いような感じ。であれば、数値文字参照を文字列に変換するツール、とかそういうのにパイプで渡して。と思って検索してみたが、どうもそういう処理をしてくれるコマンドラインツールも見当たらず。JavaScriptで、テキスト入力欄に入力したソレを変換する、てなものであればたくさんあるみたいなのだけど。
そもそも、全ての日本語文字列を数値文字参照に変換して出力するpandocがちょっとおかしいような気もする。いや、そうしておけば、ブラウザで表示した際に文字がおかしくなったりしないだろうから、安全策としては正しいのかもしれないけど。外人は、「2バイト文字圏の連中は数字の羅列でも何の文字か判るはずだ」とでも思いながら実装してるんだろうか。いやまあ、「あくまで markdown形式の文書こそがオリジナルの文書なのである。故にそこから変換した文書にはソースの可読性など必要ない。ソースを読みたければmarkdown文書を読めばよい」という思想なんだろうとは思いますが。markdownで大まかに作ってから、html編集ツールで総仕上げ、とかそういうシチュエーションは考えてないんだろうな。たぶん。pandocのおかげで markdown形式が嫌いになりそう。せっかく、「これはイイ感じのフォーマットだなあ」と感心してたのに。
そもそも、全ての日本語文字列を数値文字参照に変換して出力するpandocがちょっとおかしいような気もする。いや、そうしておけば、ブラウザで表示した際に文字がおかしくなったりしないだろうから、安全策としては正しいのかもしれないけど。外人は、「2バイト文字圏の連中は数字の羅列でも何の文字か判るはずだ」とでも思いながら実装してるんだろうか。いやまあ、「あくまで markdown形式の文書こそがオリジナルの文書なのである。故にそこから変換した文書にはソースの可読性など必要ない。ソースを読みたければmarkdown文書を読めばよい」という思想なんだろうとは思いますが。markdownで大まかに作ってから、html編集ツールで総仕上げ、とかそういうシチュエーションは考えてないんだろうな。たぶん。pandocのおかげで markdown形式が嫌いになりそう。せっかく、「これはイイ感じのフォーマットだなあ」と感心してたのに。
[ ツッコむ ]
以上です。