2021年2月15日
天気予報は雨のち晴。夕方まで結構雨が降っていて太陽出るのかな、と思っていたのだけど、日の入り直前に晴れになって外へ散歩。雨あがりで晴れの風景はまた普段とは違った景色だ。
XR Rikenon 50mm F2、F2.8だとちょうど六角形なボケになるんだ。
機械学習学習日記 - 14日目
3.4.2 で非負値行列因子分解(NMF)。こちらもPCAと同じく、有効な特徴量を教師なし学習で抽出でき、次元削減やデータを重み付き和として表現できる。NMFは名前の通り、非負のデータつまりゼロ以上の行列にしか適用ができない。
NMFは、独立した発生源から得られた情報に対して特に有効で、PCAのときのように顔データに対する適用ではNMFは抽出した成分によって、例えば右向きか左向きか、などが特徴が強い成分として抽出されることが解る。
続いて合成データとして3つの信号が混ざった信号を100の計測器から得られるとして、そのデータをNMFにかけると、その3つの信号のデータをかなりうまく抽出できている。
PCAやNMFなどの有効な特徴量を発見し、成分集合の重み付き和に分解できるアルゴリズムは、他にもたくさんあるから、よりパターン抽出に興味が出た場合、scikit learn の Decomposing signals in components (matrix factorization problems)を見ると良い。
3.4.3 t-SNEを用いた多様体学習 では t-SNEアルゴリズムを用いた説明。多様体学習では、主に可視化に用いられ、t-SNEは学習させた訓練データの新たな表現として使えるが、学習させてないデータは変換することが出来ない。そのため、データを新しい切り口で見る、探索的なデータ解析には有用だけど、最終的な目的が教師あり学習として利用するためのデータ変換などにはほとんど用いられない。
t-SNEはデータの距離を可能な限り維持しながら2次元にデータを表現する。例では、sklearnの手書き数字データセットにたいして適用し、PCAの成分だとうまく分離できてない情報も、t-SNEを使うとかなり明確に分離・クラスタリングできている。
3.5 クラスタリング。3.5.1 ではk-means を使ったクラスタリング、k-meansクラスタリングの不得意なデータ(丸く集合してない、データが複雑)の説明。PCAなどの分散から成分を見つける手法ではなく、k-meansはクラスタの中心で個々のデータポイントを表現する。中心の単一成分で表現していると考えることができることから、ベクトル量子化と呼ぶ。