特徴的単語の抽出。

Wall Street JournalNew York Timesの記事を元に、特定記事の特徴的単語を抽出するプログラムを開発中。TF-IDF法という方法を利用してみる。レコード数が多いために途中でメモリーエラーになってしまった。再度別のマシンで行ったところブルースクリーンが登場してしまった。XPでブルースクリーンを見るのは初めてだ。このためmysqlのデータベースファイルが破損してしまった。myisamchk -r C:\mysql\data\webclip\t_word_composition.MYI のようなコマンドを打ってなんとか修復できた。
複数形や動詞の変化形をどのように処理すればよいか考える。現状では単数形も複数形も異なる単語として処理される。しかしこれは同じ単語として処理したいところだ。
http://blog.bulknews.net/mt/archives/000763.htmlこの記事を読んでから関心はあったのだがどのようにすればよいのか分からなかったので放置していた。