KH coderでテキストのクラスター分析

テキストマイニングとは
 大量のテキストデータから、そこに隠れた情報や特徴、傾向、相関関係などを探し出すこと。

 参考:『テキストマイニング技術の全貌』(野村総合研究所・神田晴彦氏、2006年12月25日)より
 (テキストマイニング技術から構文解析の目的と例までが解説されています。)
-----
テキストマイニングの流れ
1. 単語の分割(形態素解析
2. 同義語の統一
3. 単語の出現パターンの数値データへの変換
4. 統計処理

テキストマイニングの2つの技術(上の3、4で活用)
a. 自然言語処理技術
 -構文解析
 -単語の出現有無の定量的評価
b. データマイニング技術
 -アソシエーション分析(共起性の評価)
 -クラスター分析
-----

●フリー分析ツール「KH coder」
 http://khc.sourceforge.net/

 参考:『テキストマイニングのフリーツール』(ブログ「知財ファイナンスモデリング」@Patrick_Sylvestreさん、2010年1月23日)
 ここで紹介されているフリーソフトウェア「KH coder」を、知識ほぼゼロから始めた私にも使うことができました。マニュアルも含めて、よくパッケージ化されていると思います。