mg の Unicode 対応
リンク: log.utashiro.com: mg-5.0.1.3
ずいぶんと前のブログにコメントすいません。 文字が UNICODEの実体参照になっているテキストファイルは フィルタをかまして検索できるようになるのでしょうか?
実体参照というのは意味がわかりませんが、Unicode には特に対応していないのです。
偶然使える機能はあるのかもしれません。
検索前にフィルタで EUC とかに変換するのであれば -z オプションを使えばできます。
そういえば未リリースの手元のバージョンでは -z は --if オプションに変更されています。
ちょっと修正規模が大きいのでちゃんと整理できていなくてリリースしていません。
普段 MacOS を使っているので使えた方が便利かもしれないとは思っていはいます。でも、単純なテキストファイルはあまりないので、どうせなら XML 対応と一緒かなあという感じです。
























「UNICODEの実体参照」って、たぶん、HTML の numeric character reference のことですよね。
http://www.w3.org/TR/REC-html40/charset.html#idx-case
投稿: soda | 2006-09-28 08:28
> 「UNICODEの実体参照」って、たぶん、HTML の numeric character reference のことですよね。
ああ、そうなんだ。
w3m -dump をフィルタに使えばいいかと思ったけど、データを標準入力から読み込んでくれないので、今のままではちょっとうまくいきませんね。
引数に URL が与えられると自動的に w3m -dump を実行するのは簡単にできた。でも、URL が存在しない時のエラー処理がイマイチだ。
Unicode を処理できるようにしてもいいけど、その場合は多分 Perl 5.8 を前提にすると思います。
投稿: utashiro | 2006-09-28 11:02