- 形態素解析

2005/03/26/Sat.形態素解析

久し振りに心から驚いた T です。こんばんは。

自分が日常的に使用している語彙の数に興味がある。正確に調べるのは困難だろうが、例えば「修羅場、どっと混む」の全ファイルをスキャンすれば、およそのオーダーは判明すると思う。そこで、文章から単語を抜き出してインデックスするようなプログラムを作ってみようかと考えたのだが、いざコードを書こうとすると途方に暮れる。

日本語は「膠着語」(こうちゃくご)という言語グループに属する。単語と単語を助詞(いわゆる「てにをは」)で接続する言語である。このような言語の解析は難しい。英語なら単語がスペースで区切られているので、機械的に単語を抽出することができる。しかし日本語は、まず「どこからどこまでが単語か」という判断から始めなければならない。この判断を「形態素解析」という。大袈裟な名称だが、Webサイトの検索などを思い起こせば、意外と馴染みの深い概念であることに気付くだろう。

形態素解析を行うには単語のデータベースが必要になるが、個人で用意するのは難しい。そこで、愛機にインストールしている電子辞書のファイルを利用できないものかと思い、試しにエディタで開こうとしたらシステムが吹っ飛んだ。後から確認すると、ファイルサイズが 160 MB もある。そりゃ無理だ。見出し語を抽出できればと思ったのだが……。

言語解析に関するサイトを見て回っているうちに、「uzura」という人工無能の存在を知って驚いた。これはスゴい。ちょっと形態素解析を勉強してみるか。