- use utf8;

2006/11/06/Mon.use utf8;

最近の『テニスの王子様』は本気で危ういと思う T です。こんばんは。

Web 日記

サイトのファイルのエンコーディングを EUC-JP から UTF-8 に変えた。文字化けがありましたら教えて下さい。

変換には「MultiTextConverter」というフリーソフトを使った。Mac/Win の両方がある。エンコードを変換するだけでなく、HTML/XML の encoding="" 内のコード指定も自動で置き換えてくれる。かなり便利。

EUC-JP を使っていたのは、レガシーな Perl で日本語処理をするときの定石だからであるが、Perl 5.8 以上であれば

use utf8;

で問題なく扱えるようになる。「RSS Reader」を作るときに、文字コードの基礎的な変換ライブラリも幾つか作成した。以前から検索・日本語解析関係で何か作ってみようと考えており、これはその布石である (UTF-8 では日本語 1文字も 1文字として認識する)。いつ生かされるのかわからないのはいつも通りだが。