[DaReCo] [連想計算]
[DaReCo] DaReCoというウエブアプリケーションを作ってみましたの続きです.
先の記事には、「個人的にとても気に入っていて、楽しく活用できるアプリができた」と、書きましたが、わたしも人間ですので、こういったアプリが他人からどう見られるのかなとか、連想計算に同じように興味を持つ人と情報交換してみたいなとも、思うわけです.
さて、DaReCoのページを見ていただくとわかりますが、入力したフレーズ(入力は単語でなくても良い.文章でも良いです)から関連ワードを計算し表示しています.これも連想計算です.この関連ワードには表示はされていませんが、重み(ウエイト)を内部では持っています.このワードとそれに紐付くウエイトの組み合わせによって連想計算を行っていますので、入力したワードが含まれていない場合でも近しい空間の記事を表示してくれますし(正確には近しい空間の記事を表示しているように感じるだけ・・・)、入力したワードをタイトルに含むものが記事の上位に来ます.
この関連ワードはWikipedia様の情報を利用していますので、日本語に関してはほぼ問題がない程度といえます.表記ゆれは勘弁してほしいと思います.特定のニッチなサブカルは捉え切れていないのかもしれません.主にWikipediaが・・・
仮に連想ワードが表示されていたとしても、それに関する記事が必ず表示されるわけではありません.だって自分の興味のあるポータルサイトの記事しか集めていませんから.それに記事はRSSフィードで配信されているものだけですから、RSSで配信していないサイトの記事は入っていません.
つまり、わたしの独断と偏見でポータルサイトを選び、またRSSで配信されているもののみという制限があります.あしからず・・・
RSSで取得した記事の保持期間は現在10日です.前の記事に「趣味でやっている」と書きましたが、連想計算は自宅のマシンで運用しています.現在連想計算を行うモジュールは完全メモリベースですので、計算マシンの性能(主にメモリ容量)に依存します.スワップさせてしまうと計算の性能が出ませんので、スワップしない程度の記事数にしておかなければなりません.現在は10日分を保持し、publishedから10日経過した記事は削除しています.
メモリは32Gありますので、まだまだ余裕はありますが、記事を取得するサイトを増やすこともあるかもしれません.また個人的には最新の記事のみをチェックしたいので、10日で十分なのです.毎日どんな記事がリリースされているかチェックしていますので、本当は5日でも良いくらいです.メモリに余裕があるので10日にしています.
現在連想計算は記事のタイトルのみで行っています.本文で行うこともできますが、RSSをソースとしていますので現時点ではすべての記事にその対応を入れることは不可能です.記事には記事の内容にふさわしいタイトルがつけられていることを前提にしています.
前の記事でも述べましたが、ほんと、個人的にはとても満足しています.