ニュースメモ分類君にサイドバーの記事が多いサイトがまとめられてしまうという現象が出ている模様。困ったな…。クラスタ内のURLを解析してサイトそれぞれの割合を取って、それが閾値以上ならクラスタごと無視してみるかな。早朝に出てた「日経」とか「日経BP書店」といった劣悪な単語は無視語リストに入れちゃったけど、「香港企業」なんてのを排除するのはちょっと忍びない。
ニュースメモ分類君にサイドバーの記事が多いサイトがまとめられてしまうという現象が出ている模様。困ったな…。クラスタ内のURLを解析してサイトそれぞれの割合を取って、それが閾値以上ならクラスタごと無視してみるかな。早朝に出てた「日経」とか「日経BP書店」といった劣悪な単語は無視語リストに入れちゃったけど、「香港企業」なんてのを排除するのはちょっと忍びない。
posted by ec / ■ permalink / CC:BY / / 2003/11/25 11:05:21 / references: 20031125123641