The htmresearch from ytakashina

分かりづらいかもしれないんですが、以下はHMMのモデルを図示したものです。
この図で、観測がデータ点、隠れ状態がクラスタだと考えてください。
生成確率Gはクラスタの割り当てを示す行列です。

ここで、生成確率Gと、すべての時刻を通じての各観測値は既知とします。
このような状況において、隠れ状態の遷移確率Tを求めることを考えたいです。

もしクラスタリングがハードクラスタリングだったら、
観測が与えられればそれに対応するクラスタが必ず一つ決まるので、
それを数え上げれば上位のノードの遷移確率を計算することができました。

しかし、クラスタリングがソフトクラスタリングだった場合、
隠れ状態の遷移確率はそのように単純には求まりません。

このような場合に、正しく隠れ状態の遷移確率を求める方法はあるでしょうか？

一応、Gの疑似逆行列を計算すれば、行列計算で求まるのかなと思ったのですが、行列のランクが見かけより低いときに不安が残ります。

Sampling.CalcSamplePoints のリファクタリング

欠損値対応で汚くなった

欠損データへの対応

NaNがあるとクラスタリングもできないし離散化もできない。
Sampling時に対応すればよいと思われる。

TPでのクラスタリングのファジー化

加えて、そういう場合に顕在化するであろう問題の整理。
特に多変量の場合に上の階層の遷移確率を学習させるのが大変そう。

動的・多変量の場合の確率伝播法

一応長期的な目標。
ここまでやったら大目標を立て直す。

多変量・時系列の異常検知のデータセットの調査

現在は以下のデータセットを使っているが、もっと有名なデータセットがあればそれを使いたい。

Water Treatment Plant Data Set

動画(画像＋音声)でもいいはずなのでそれのベンチマークもないか検討。
あとはNASAのデータセットから何かいいのが探せないか……

K-medoids法の実装

いつかは必要だと思ってはいた。
「Level2以上でも離散化は必要か考える #53」で使うことになりそうなので、やる。

やることとやらないことを決める

HTMに関してどこまでやるのかを決める。

現在(3/14)のプログラム

ネットワーク構造はハードコーディング
Temporal Poolingはハード割り当て
Spatial Poolingはハード割り当て
メモされた入力にしか対応していない

オリジナルの論文

Temporal Poolingはハード割り当て
- 上位のノードでメモする必要があるため、結局1-hotベクトルにする。
Spatial Poolingはソフト割り当て
- 学習時はメモしているので1-hotだが、推論時にはソフトになる
未知の入力にも対応している

結果の可視化を一括に

単一のhtmlから見るデータを選んで見られるようにしたい

静的・多変量の場合のパラメータ学習

とりあえずハードクラスタリングなら数え上げで行けるはずなのでそれをやる。
ファジークラスタリングでうまくいくかは微妙。
行列演算でうまくいくと思っていたがランクが行列の大きさより小さいときに問題が起こりそう。
要検討。

KLダイバージェンスによるファジークラスタリング手法の調査

以下のイシューに関連する調査

TPでのクラスタ割り当てのファジー化 #31

連続値の相互情報量の算出方法

時間的な予測の評価のために、予測値と実測値の相互情報量を出したりしていますが、今は離散値に丸めて相互情報量を出してしまっているので、連続な場合にも使える手法がないか調べたい。

下のサイトを見ると、連続値を離散化する方法と、何らかの分布を仮定する方法がある様子。
確かに正規分布を仮定したほうが、離散値に丸めるより数値のわずかなブレに柔軟に対応できるかもしれない。

http://d.hatena.ne.jp/m-a-o/touch/20130623/p1

欠損値の扱い

今はNaNという値として使ってしまっているが、「NaNであること」と「情報がないこと(他のどんな値でもありうる)」は違うのでそれを反映した実装にすべき。

確率伝播法実装

多変量の場合に系列間の相互情報量を出す

ネットワークの構成を考えるときに、相互情報量が高いノードからまとめていくとうまくいく気がする。

IndexOfを使わない書き方にする

@herumi さんよりアドバイスいただいた内容に沿って書き換える。

C#的には
・double.NaN == double.NaNはfalseでdouble.NaN.Equals(double.NaN)はtrue
・listなどのIndexOfはEqualsを使って検索している
ことから、double[]にNaNが含まれているときにそれが見つかるのはOKだと思います。

ただ口頭でいいましたが、浮動小数点数の厳密比較をするのは避けた方がよいため、
if (fabs(a[i] - value) < 1e-6) { return i; }
のようなコードを作った方が安全だと思います。
欠損値もNaNではなく10^300のようなデータに含まれない十分大きな値としたほうがよいでしょう。
後者の理由はCPUによってはNaNを扱うととても遅くなることがあるため。

https://cybozulive.com/1_264054/gwBoard/view?bid=1%3A5080491&fid=28320366&focusOn=follow