最初から検閲するのはevilじゃなくて、途中からプライバシーを奪うのはevilというのがGoogleの考えなんだろうか。しかしこうなって来るとパーソナライズという技術そのものに嫌悪感がつきまといそーだけど、技術的観点からはその制約があるほうが愉快な世界を見られると思う。パーソナライズは行き止まりだ。
最初から検閲するのはevilじゃなくて、途中からプライバシーを奪うのはevilというのがGoogleの考えなんだろうか。しかしこうなって来るとパーソナライズという技術そのものに嫌悪感がつきまといそーだけど、技術的観点からはその制約があるほうが愉快な世界を見られると思う。パーソナライズは行き止まりだ。
posted by ec / △ permalink / CC:BY / / 2006/01/31 01:42:01
openfbとMMの横断検索のためにタグの和英/英和辞書を製作中。要は「英語:日本語」のハッシュだ。しかし1000もタグがあると死ぬな…。
posted by ec / ■ permalink / CC:BY / / 2005/08/26 00:32:01 / references: 20050826000419
tagによる情報検索の問題点は類似度を算出するのがむずかしー点にあるのだけど、共起頻度とかつかってtagそれぞれ一つ一つに多次元のベクトルを与えることができればなんとかなりそうな気もしてきた。LSIっぽいソリューションで…なんともならないか。
posted by ec / △ permalink / CC:BY / / 2005/05/31 16:30:36 / references: 20050531063827
Tigerに形態素解析ソフトをインストールしたよ。
ようやくSpotLight索引作成が終了してMailへの移行も完了。なのでいろいろ検索してみたら、どーもやっぱりUTF-8とかEUCなファイルが検索できてない。あー。ファイルタイプの設定を自分で増やせたりするならば、「国際化HTML」みたいな名前で文字コード自動判別&分かち書きフィルタを書いてみたいところではある。つーかこのままじゃみんな困るのは目に見えてるわけだし、そのうちAppleもなんとかするだろう…。
あきらめてEstraierとかインストールするか…どうせニュースメモ変換君に必要だしな…とchasen-2.3.3をコンパイル。これはgcc4で素通り。次にipadic2.7.0をコンパイル。ここでchasenrcが無いと言われるので、落ち着いてipadicを展開したディレクトリ内のchasenrcを/usr/local/etc/にコピー後コンパイル。とりあえずこれでEUCで書いてたずいぶん前のスクリプトに関しては万全。
しかし最近はMeCabを結構使ってた(索引スクリプトとか)ので、こっちも必要になってくる。よってmecab-0.81をコンパイル…通らねえー。こんな時は冷静にgcc_select 3.3…--disable-shared…通らねえー。あきらめて推奨バージョンのipadic-2.5.1をダウンロードし直してきて--disable-sharedで再コンパイル…通ったーていうか最初からこうやれよ。ともかくようやくこれで当面の活動は再開できそうだ。
posted by ec / □ permalink / CC:BY / / 2005/05/02 06:57:00