nifuba - tag: 自然言語処理 (1/1)

20070105

こうさぎが書くアレは管理者がきちんとフィルタすれば結構使えると思う。機能語の語彙は自分のエントリから、内容語の語彙はブックマークしたエントリから取ってくれば草稿自動生成装置ぐらいにはなるんじゃない? どうせ「あとで書く」と思ってブックマークしたまま放置してる記事なんて誰でも死ぬほど持ってるわけだし、悪くなさそうだ。

posted by ec / □ permalink / CC:BY / 自然言語処理, tech, こうさぎ, 人工無脳, AI / 2007/01/05 13:08:03

20051206

Kotakuより、360度歩き回れるVRインターフェイスVirtuSphere。は以前engadgetで見たことがあるのでどうでもよくて、そのVirtuSphere社からリンクされてたVR環境における歩行インターフェイスに関するロシア語の記事が非常に興味深そうなので読んでみようと思ってGoogle翻訳を探すとロシア語をサポートしてなかった。しかたないのでBabelfish放りこんでみるとひどい翻訳になった。ofしか訳せてないよ! ロシア語の自動翻訳は困難だったりするんだろうか…と思ってSYSTRANに放りこんでみたらうまくいった。ロシア語翻訳にはSYSTRAN! そして読んでみると普通に知ってる話ばかりでションボリ。かっこいいVR歩行インターフェイス画像の数々だけを保存しとこう…。

posted by ec / □△ permalink / CC:BY / videogame, VR, インターフェイス, 自然言語処理, 自動翻訳 / 2005/12/06 00:26:06

20051016

キーワード抽出君をいじってTagCloudっぽい見た目にしてみた。もういいかなとは思ってたのだけど、なんだかあれだけじゃ動く人も動けなさそうなので蛇足をモリモリと。数値は出ないものの、tag入力支援としてはまずまず悪くないコスメティックじゃなかろうか。もちろん実用においてはキー入力回数&放置時間を確認した自動処理は必須だけど、これ以上は眠いのでパス。寝て起きたらここにも実装してみよ。

TagCloudの綴りを間違っていた。ありがち。

posted by ec / □△ permalink / CC:BY / 自然言語処理, tag, 形態素解析, TagCloud / 2005/10/16 06:36:06 / references: 20051013004534

20051013

textareaに対するキーワード抽出ができるスクリプトを書いて簡易インターフェイスつけてみた。2-4gramは助詞を認識できない限り微妙としか言いようがないな。テンプレートでおおざっぱな形態素解析ができるようなスキルがあればよかったのだけど、寝不足なのでパス。Yahoo!のSearch APIを使うともっとまともな計算ができるみたいだけど、これもめんどくさいから放置。

つーか類似記事のタグを引っ張ってくるほうがタグ入力支援には役立つ気がした。このアプローチはもういいかな。

posted by ec / □△ permalink / CC:BY / 自然言語処理, tag, 形態素解析 / 2005/10/13 00:45:34 / references: 20051012114435 20051015210330 20051016063606

20051012

なんかtag入力支援のためのtextareaに対するキーワード抽出が流行ってるみたいだな。だけどどーせJavascriptを使うなら、日本語なら2-4gram、半角英数なら1単語を切り出してDF値をどっかから取ってきて使うってのがエコロジカルだと思う。コード書いてみるか。

posted by ec / □△ permalink / CC:BY / 自然言語処理, tag, 形態素解析 / 2005/10/12 11:44:35 / references: 20051013004534

20050826

openfbとMMの横断検索のためにタグの和英/英和辞書を製作中。要は「英語:日本語」のハッシュだ。しかし1000もタグがあると死ぬな…。

posted by ec / ■ permalink / CC:BY / タグ, openfb, 自然言語処理, 情報検索 / 2005/08/26 00:32:01 / references: 20050826000419

20050502

Tigerに形態素解析ソフトをインストールしたよ。

ようやくSpotLight索引作成が終了してMailへの移行も完了。なのでいろいろ検索してみたら、どーもやっぱりUTF-8とかEUCなファイルが検索できてない。あー。ファイルタイプの設定を自分で増やせたりするならば、「国際化HTML」みたいな名前で文字コード自動判別&分かち書きフィルタを書いてみたいところではある。つーかこのままじゃみんな困るのは目に見えてるわけだし、そのうちAppleもなんとかするだろう…。

あきらめてEstraierとかインストールするか…どうせニュースメモ変換君に必要だしな…とchasen-2.3.3をコンパイル。これはgcc4で素通り。次にipadic2.7.0をコンパイル。ここでchasenrcが無いと言われるので、落ち着いてipadicを展開したディレクトリ内のchasenrcを/usr/local/etc/にコピー後コンパイル。とりあえずこれでEUCで書いてたずいぶん前のスクリプトに関しては万全。

しかし最近はMeCabを結構使ってた(索引スクリプトとか)ので、こっちも必要になってくる。よってmecab-0.81をコンパイル…通らねえー。こんな時は冷静にgcc_select 3.3…--disable-shared…通らねえー。あきらめて推奨バージョンのipadic-2.5.1をダウンロードし直してきて--disable-sharedで再コンパイル…通ったーていうか最初からこうやれよ。ともかくようやくこれで当面の活動は再開できそうだ。

posted by ec / □ permalink / CC:BY / Mac, Tiger, 自然言語処理, 情報検索, Chasen, MeCab / 2005/05/02 06:57:00

1998- ec some rights reserved.