from __future__ import katryo

カリフォルニア州マウンテンビュー在住のソフトウェアエンジニアがいろいろ書きます。

現実逃避アドベントカレンダー2013を始めました。

現実逃避アドベントカレンダー2013を始めました。

最近研究に追われている。

とても忙しい。

忙しいときは現実逃避が捗る。

ここでいう現実逃避とは機械学習iOSアプリ開発の勉強を指す。

今日は文書と文字列のコサイン類似度を計算するコードを書いた。研究に使うような使わないような使えるといいなという希望を込めたコードだ。

後の世の人のために、覚えたことをQiitaに書き残すことにした。せっかくなので、これを現実逃避アドベントカレンダー2013と名づけることにした。もし誰かが現実逃避をしたくなったときは、僕の意志を継いでほしい。

1日目:ナイーブベイズ分類器の実装

技評の記事をもとにナイーブベイズ分類器を実装した。

http://qiita.com/katryo/items/6a2266ffafb7efa9a46c

2日目: Bing検索との統合

Bing APIを使って、検索クエリをカテゴリとみなしたナイーブベイズ分類器の実用システムを作った。

http://qiita.com/katryo/items/62291ba328de9d12bd30

3日目: 類似度の計算

分類器が学習した結果を利用して、入力した文字列とWebページ集合(カテゴリーでラベルづけしたもの)のコサイン類似度を計算するシステムを作った。

http://qiita.com/katryo/items/b6962facf744e93735bb

4日目: Scikit-learnでtf-idfを計算

2日目で保存したWebページ内の語のtf-idfを計算するのにscikit-learnという便利ライブラリを調べた。

http://qiita.com/katryo/items/f86971afcb65ce1e7d40

まとめ

誰であっても、人は生まれながらに自由だ。

誰であっても、人の現実逃避をやめさせる権利はない。

だから誰でも現実逃避アドベントカレンダー2013を名乗って続けて大丈夫なので自由に現実逃避してほしい。