特徴的単語の抽出を再度やってみたい。

以前開発していた、記事の中から特徴的単語を抽出するスクリプトが、マシンの変更により使えなくなったので再度開発することにする。昔はクローラーを作って、WSJNew York Timesの記事を取得してデータベースに追加していたので、このデータベースのデータを元に単語の頻出度合を分析し、特徴的単語を分析することができた。夏前の英文読書のエントリーには記事毎の特徴的単語を表示している。しかしマシンの構成を変更したので今までのシステムを使うことができなくなった。古いシステムのデータベースのデータを新マシンのmysqlに追加することが文字コードの問題で今のところできないので、データを再度作り直すことにする。
クローラーを開発するのが面倒なので、RSSに含まれる記事データ(多くのサイトの場合、本文の一部)をデータベースに追加することにしたい。このほうが労力が大幅に省ける。