2008年10月

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

最近のモノ

« sccc: ヘンリー L. メンケン | メイン | mg の新機能 »

2006-09-27

mg の Unicode 対応

リンク: log.utashiro.com: mg-5.0.1.3

ずいぶんと前のブログにコメントすいません。 文字が UNICODEの実体参照になっているテキストファイルは フィルタをかまして検索できるようになるのでしょうか?

実体参照というのは意味がわかりませんが、Unicode には特に対応していないのです。
偶然使える機能はあるのかもしれません。
検索前にフィルタで EUC とかに変換するのであれば -z オプションを使えばできます。

そういえば未リリースの手元のバージョンでは -z は --if オプションに変更されています。
ちょっと修正規模が大きいのでちゃんと整理できていなくてリリースしていません。

普段 MacOS を使っているので使えた方が便利かもしれないとは思っていはいます。でも、単純なテキストファイルはあまりないので、どうせなら XML 対応と一緒かなあという感じです。

トラックバック

このページのトラックバックURL:
http://www.typepad.jp/t/trackback/6555508

このページへのトラックバック一覧 mg の Unicode 対応:

コメント

「UNICODEの実体参照」って、たぶん、HTML の numeric character reference のことですよね。
http://www.w3.org/TR/REC-html40/charset.html#idx-case

> 「UNICODEの実体参照」って、たぶん、HTML の numeric character reference のことですよね。

ああ、そうなんだ。

w3m -dump をフィルタに使えばいいかと思ったけど、データを標準入力から読み込んでくれないので、今のままではちょっとうまくいきませんね。

引数に URL が与えられると自動的に w3m -dump を実行するのは簡単にできた。でも、URL が存在しない時のエラー処理がイマイチだ。

Unicode を処理できるようにしてもいいけど、その場合は多分 Perl 5.8 を前提にすると思います。

コメントを投稿

hatena.utashiro.com

最近のトラックバック