2008/10/16(木)IPADIC(IPA辞書)とはなにものか?
日本語を処理する上で形態素解析というのはわりと欠かせないものです。
Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。
ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。
ここでChaSenにもMeCabにも、標準的な辞書として「ipadic」「IPA辞書」というのが提供されていて、多くの人がこれを使っていると思います。*1
しかし、この辞書「IPA」という名前がついている割にはIPAが維持しているわけでもなさそうです。
MaCabではIPA辞書をhttp://mecab.sourceforge.net/srcからダウンロードするように指示しています。ちなみにChaSenではhttp://sourceforge.jp/projects/ipadic/が示されています。
ChaSenで利用するipadic-2.7.0.tar.gzに含まれるNoun.adjv.dicの先頭5行を見ると、以下のようになっています
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (きらびやか 2763)) (読み キラビヤカ) (発音 キラビヤカ) )*2
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (史的 3114)) (読み シテキ) (発音 シテキ) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (プラトニック 3114)) (読み プラトニック) (発音 プラトニック) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (てらてら 3114)) (読み テラテラ) (発音 テラテラ) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (静謐 3114)) (読み セイヒツ) (発音 セイヒツ) )
一方、MeCabで利用するmecab-ipadic-2.7.0-20070801.tar.gzに含まれるNoun.adjv.csvの先頭5行は以下のようになっています。
きらびやか,1287,1287,8349,名詞,形容動詞語幹,*,*,*,*,きらびやか,キラビヤカ,キラビヤカ微妙に内容が違います...
史的,1287,1287,6608,名詞,形容動詞語幹,*,*,*,*,史的,シテキ,シテキ
プラトニック,1287,1287,5077,名詞,形容動詞語幹,*,*,*,*,プラトニック,プラトニック,プラトニック
てらてら,1287,1287,8349,名詞,形容動詞語幹,*,*,*,*,てらてら,テラテラ,テラテラ
静謐,1287,1287,4845,名詞,形容動詞語幹,*,*,*,*,静謐,セイヒツ,セイヒツ
ChaSenについてはsourceforge.jpのプロジェクトに
形態素解析器 ChaSen 用辞書と書かれています。
形態素と品詞などの情報を持つ語彙表であり、
ChaSen で用いられるパラメータを含みます。
一方、MeCabによれば、
IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞書です.となっているので、どうもIPADICというのはChaSenのために作られたもので、MeCabはこれに対して新しい要素を付加して利用しているようです。
そもそもChaSen用(ipadic-2.7.0.tar.gz)のdoc/以下を見ると、
形態素解析システム茶筌は,言語処理のためのフリーソフトウェアとして奈良先と言うことで、(もともとは)ChaSenの開発者が何らかのデータを元に「IPA品詞体系(THiMCO97)」に基づいたデータを作成したというのが始まりのようです。
端科学技術大学院大学より公開されているシステムです.本辞書は,茶筌
(version2.3.2以降)用の日本語辞書 (ipadic2.7.0)について説明したものです.本
辞書では,情報処理振興事業協会(IPA)で設定されたIPA品詞体系(THiMCO97)に基
づいて一部修正を加えました.本説明書は新情報処理開発機構(RWCP)による「テ
キストデータベース報告書(平成8年度)」に掲載されたIPA品詞体系(THiMCO97)
の説明を許可を得て抜粋し,一部修正を施したものです.
なお,現在のIPA品詞体系日本語辞書は,1998年5月に公開したIPA品詞体系日本
語辞書(ipadic1.0b2)に対して,奈良先端科学技術大学院大学情報科学研究科鹿
野清宏教授を代表とする「日本語ディクテーション基本ソフトウェアの開発」
(IPA独創的先進的情報技術に関わる研究開発)のグループの方々に大幅な修正,
改良を行っていただき,その後,様々な修正を行ったものです.
本辞書システムの構築に携わられたすべての方々にに対して心より感謝します.
ちなみに*.dicの中に現れる数字は「形態素生起コスト」と呼ばれるパラメータで、*3
見出し語の横にある数字を形態素生起コストという.*4
数値が小さいほど出現しやすい語という意味になる.
IPADIC の形態素生起コストは解析済みのデータから学習した単語の出現確率を
元に計算した数値が付与されている.
ここで疑問になるのが以下の2点
・単語の一覧の出自は?
・「解析済みのデータから学習した」の学習素材の出自は?
ipadic-2.7.0.tar.gzのドキュメントを読んでいると「辞書の著作権」の項目に以下のように書いてあります。
本辞書は ICOT の研究成果物を含んでいます.ICOTとはなにか?
もうcloseした組織のようなのだが、(財)新世代コンピュータ開発機構という組織らしい。*5
ICOT (ITPro情報通信用語辞典)
ICOTはいろいろな研究成果を残しているようなのですが、この手の辞書についての研究成果がどんなものかと言うことを調べていると、次のものが見つかりました。
NAIST Japanese Dictionary (sourceforge.jp)
NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリを話がひっくり返ってしまうのですが、従来「ChaSen用IPADIC」と呼ばれていたものは、現在は「NAIST Japanese Dictionary」として保守されているようです。
チェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の
構造を付与する作業を行っています。固有名詞については不要な語、新規追加
などの整理を随時行っていきます。この作業により IPAdic のライセンスで問
題となっていた ICOT 条項を削除し、広告条項無しの BSD ライセンスに変更致
しました
ちなみに、NAIST-jdicのChaSen用、MeCab用もメンテナンスされています。本日時点での最終更新が2008-09-16なのでかなり新しいです。*6
この変更に至る経緯は以下のライセンス文に併記されています。
NAIST Japanese Dictionary: License.txt (sourceforge.jp)
ICOT 条項排除の経緯これでやっと謎が解けました。
ChaSen 用辞書 IPADIC は ICOT による成果物「形態素辞書」を基にして作成されました。
http://www.icot.or.jp/ARCHIVE/Museum/IFS/abst/033-J.html
1995年以降から2003年にかけて奈良先端大において品詞体系・活用情報の改変、
発音の付与を繰り返し、さらに固有名詞などの語彙項目を充実化させることで、
元の 148,157 件から約 30 万件にまで増加しました。
この時点で前の IPADIC の時点で既に元の品詞体系から乖離しており、
元の ICOT 辞書の原形をとどめていませんでした。
ライセンス条項の変更のために慎重を期すために、
2004年から2006年にかけて全数チェックを行い、品詞体系の見直し・
固有名詞以外の自立語に対する表記ゆれ情報付与・複合語情報付与などを行いました。
この間不要な語を削除し、新規語の追加などを行いました。
浅原と松本の判断でこの全数チェックを持って、ICOT 条項を排除しました。
2008年名前を NAIST-jdic とし、修正 BSD ライセンスとして公開しております。
順次、表記ゆれつき辞書、複合語情報つき辞書についても公開していきたいと考えております。
まとめると
1. ICOTフリーソフトウェア No.33『形態素辞書』*7
ここから派生して
2. ChaSen用辞書 (当初はChaSenバンドル)
このタイミングでIPA品詞体系として整理された?これが「IPADIC」の語源?*8
3. IPADICとして独立 (現在はIPAdic legacyと称されているらしい)
4. 内容・ライセンスの精査によりNAIST-jdicとして整理される
と言うことのようです。
ちなみに最後に見つけたんですが、IPAフォーラム2007の発表「茶筌」の開発を振り返って(pdf)でも経緯が触れられていたりします。
私はプロダクトにばっかり着目していましたが、中の人という視点で考えれば非常にシンプルでしたね :-)