ようこそゲストさん

ぱらめでぃうす

blogを引っ越しました。以後このblogは更新されません。
引っ越し先

2008/10/16(木) IPADIC(IPA辞書)とはなにものか?

はてブ tech
※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。
日本語を処理する上で形態素解析というのはわりと欠かせないものです。
Webのサービスでよく用いられている形態素解析器にはChaSenmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。

ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。


ここでChaSenにもMeCabにも、標準的な辞書として「ipadic」「IPA辞書」というのが提供されていて、多くの人がこれを使っていると思います。*1
しかし、この辞書「IPA」という名前がついている割にはIPAが維持しているわけでもなさそうです。

MaCabではIPA辞書をhttp://mecab.sourceforge.net/srcからダウンロードするように指示しています。ちなみにChaSenではhttp://sourceforge.jp/projects/ipadic/が示されています。

ChaSenで利用するipadic-2.7.0.tar.gzに含まれるNoun.adjv.dicの先頭5行を見ると、以下のようになっています
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (きらびやか 2763)) (読み キラビヤカ) (発音 キラビヤカ) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (史的 3114)) (読み シテキ) (発音 シテキ) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (プラトニック 3114)) (読み プラトニック) (発音 プラトニック) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (てらてら 3114)) (読み テラテラ) (発音 テラテラ) )
(品詞 (名詞 形容動詞語幹)) ( (見出し語 (静謐 3114)) (読み セイヒツ) (発音 セイヒツ) )
*2
一方、MeCabで利用するmecab-ipadic-2.7.0-20070801.tar.gzに含まれるNoun.adjv.csvの先頭5行は以下のようになっています。
きらびやか,1287,1287,8349,名詞,形容動詞語幹,*,*,*,*,きらびやか,キラビヤカ,キラビヤカ
史的,1287,1287,6608,名詞,形容動詞語幹,*,*,*,*,史的,シテキ,シテキ
プラトニック,1287,1287,5077,名詞,形容動詞語幹,*,*,*,*,プラトニック,プラトニック,プラトニック
てらてら,1287,1287,8349,名詞,形容動詞語幹,*,*,*,*,てらてら,テラテラ,テラテラ
静謐,1287,1287,4845,名詞,形容動詞語幹,*,*,*,*,静謐,セイヒツ,セイヒツ
微妙に内容が違います...

ChaSenについてはsourceforge.jpのプロジェクト
形態素解析器 ChaSen 用辞書
形態素と品詞などの情報を持つ語彙表であり、
ChaSen で用いられるパラメータを含みます。
と書かれています。
一方、MeCabによれば、
IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞書です.
となっているので、どうもIPADICというのはChaSenのために作られたもので、MeCabはこれに対して新しい要素を付加して利用しているようです。


そもそもChaSen用(ipadic-2.7.0.tar.gz)のdoc/以下を見ると、
形態素解析システム茶筌は,言語処理のためのフリーソフトウェアとして奈良先
端科学技術大学院大学より公開されているシステムです.本辞書は,茶筌
(version2.3.2以降)用の日本語辞書 (ipadic2.7.0)について説明したものです.本
辞書では,情報処理振興事業協会(IPA)で設定されたIPA品詞体系(THiMCO97)に基
づいて一部修正を加えました.本説明書は新情報処理開発機構(RWCP)による「テ
キストデータベース報告書(平成8年度)」に掲載されたIPA品詞体系(THiMCO97)
の説明を許可を得て抜粋し,一部修正を施したものです.

なお,現在のIPA品詞体系日本語辞書は,1998年5月に公開したIPA品詞体系日本
語辞書(ipadic1.0b2)に対して,奈良先端科学技術大学院大学情報科学研究科鹿
野清宏教授を代表とする「日本語ディクテーション基本ソフトウェアの開発」
(IPA独創的先進的情報技術に関わる研究開発)のグループの方々に大幅な修正,
改良を行っていただき,その後,様々な修正を行ったものです.

本辞書システムの構築に携わられたすべての方々にに対して心より感謝します.
と言うことで、(もともとは)ChaSenの開発者が何らかのデータを元に「IPA品詞体系(THiMCO97)」に基づいたデータを作成したというのが始まりのようです。
ちなみに*.dicの中に現れる数字は「形態素生起コスト」と呼ばれるパラメータで、*3
見出し語の横にある数字を形態素生起コストという.
数値が小さいほど出現しやすい語という意味になる.
IPADIC の形態素生起コストは解析済みのデータから学習した単語の出現確率を
元に計算した数値が付与されている.
*4

ここで疑問になるのが以下の2点
・単語の一覧の出自は?
・「解析済みのデータから学習した」の学習素材の出自は?

ipadic-2.7.0.tar.gzのドキュメントを読んでいると「辞書の著作権」の項目に以下のように書いてあります。
本辞書は ICOT の研究成果物を含んでいます.
ICOTとはなにか?
もうcloseした組織のようなのだが、(財)新世代コンピュータ開発機構という組織らしい。*5
ICOT (ITPro情報通信用語辞典)

ICOTはいろいろな研究成果を残しているようなのですが、この手の辞書についての研究成果がどんなものかと言うことを調べていると、次のものが見つかりました。

NAIST Japanese Dictionary (sourceforge.jp)
NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリを
チェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の
構造を付与する作業を行っています。固有名詞については不要な語、新規追加
などの整理を随時行っていきます。この作業により IPAdic のライセンスで問
題となっていた ICOT 条項を削除し、広告条項無しの BSD ライセンスに変更致
しました
話がひっくり返ってしまうのですが、従来「ChaSen用IPADIC」と呼ばれていたものは、現在は「NAIST Japanese Dictionary」として保守されているようです。
ちなみに、NAIST-jdicのChaSen用、MeCab用もメンテナンスされています。本日時点での最終更新が2008-09-16なのでかなり新しいです。*6

この変更に至る経緯は以下のライセンス文に併記されています。
NAIST Japanese Dictionary: License.txt (sourceforge.jp)
ICOT 条項排除の経緯

ChaSen 用辞書 IPADIC は ICOT による成果物「形態素辞書」を基にして作成されました。
http://www.icot.or.jp/ARCHIVE/Museum/IFS/abst/033-J.html
1995年以降から2003年にかけて奈良先端大において品詞体系・活用情報の改変、
発音の付与を繰り返し、さらに固有名詞などの語彙項目を充実化させることで、
元の 148,157 件から約 30 万件にまで増加しました。
この時点で前の IPADIC の時点で既に元の品詞体系から乖離しており、
元の ICOT 辞書の原形をとどめていませんでした。
ライセンス条項の変更のために慎重を期すために、
2004年から2006年にかけて全数チェックを行い、品詞体系の見直し・
固有名詞以外の自立語に対する表記ゆれ情報付与・複合語情報付与などを行いました。
この間不要な語を削除し、新規語の追加などを行いました。
浅原と松本の判断でこの全数チェックを持って、ICOT 条項を排除しました。
2008年名前を NAIST-jdic とし、修正 BSD ライセンスとして公開しております。
順次、表記ゆれつき辞書、複合語情報つき辞書についても公開していきたいと考えております。
これでやっと謎が解けました。

まとめると

1. ICOTフリーソフトウェア No.33『形態素辞書』*7
ここから派生して
2. ChaSen用辞書 (当初はChaSenバンドル)
このタイミングでIPA品詞体系として整理された?これが「IPADIC」の語源?*8
3. IPADICとして独立 (現在はIPAdic legacyと称されているらしい)
4. 内容・ライセンスの精査によりNAIST-jdicとして整理される

と言うことのようです。

ちなみに最後に見つけたんですが、IPAフォーラム2007の発表「茶筌」の開発を振り返って(pdf)でも経緯が触れられていたりします。

私はプロダクトにばっかり着目していましたが、中の人という視点で考えれば非常にシンプルでしたね :-)

*1 : 最近は形態素解析辞書UniDicというものがあり、ChaSen、MeCabともにこちらを使うこともできるようです。これはまた別の機会に

*2 : aDiaryの表記の都合で変なスペースが入っています

*3 : 他のファイルにもパラメータはあるのだが、ここでは省略

*4 : うっかりしていましたが、形態素と言うのは「それ以上分割できない最小の文字列」ということです。

*5 : 第五世代コンピュータ関係か...

*6 : これがChaSenのページからリンクされていないのが謎

*7 : ICOTは通商産業省からの委託業務だったようだ

*8 : IPAの補助金事業だったから?


1: koji 2008年10月16日(木) 午後9時21分

なんと、君はICOTと言ってピンとこない世代か!
そういや、見かけによらず若いんだっけ:p
その昔、第五世代コンピュータって盛り上がったの知りませんか?

2: don 2008年10月16日(木) 午後10時15分

「第五世代コンピュータ」という大プロジェクトがあったというのは伝説の領域で聞いていました。(Σも)でも、ICOTという組織名はは初めて知りました。
さすがに現場に居ないとそういう組織名までは聞かないのではないかと...
戸籍年齢的に勘弁してください :-)

  • 日本語形態素解析器の作り方 研究開発
    日本語形態素解析(のルール作成方法)には、大別して2手法あるそうです。○手動で作成した規則による手法文法、自然言語事態を規則化したものですが、基本的には自然言語には例外が数多く存在し、ルール自体が非常に複雑になりがちです。JUMANはこの方法です....
  • SEO
  • loading
  • ぱらめでぃうす