応用数学3
情報理論について、学習した。
そもそも情報理論とは、「情報・通信を数学的に論じる学問。応用数学の中でもデータの定量化に関する分野であり、可能な限り多くのデータを媒体に格納したり通信路で送ったりすることを目的としている。」である。
学習内容は以下の通り。
・自己情報量
・シャノンエントロピー
・KLダイバージェンス
・交差エントロピー
この中で、機械学習の誤差の指標でもよく用いられる交差エントロピーを取り上げたい。
交差エントロピーとは、2つの確率分布の間に定義される尺度であり、2つの確率分布がどれくらい「離れているか」を表す。
とが一致しているほど、交差エントロピーは小さくなり、0に近づく。
そのため、機械学習(2値分類、多値分類)でそれぞれ、「正解の分布」、「予測の分布」と置いたとき、機械学習による予測が正解に似ているほど、P と Q の交差エントロピーが小さくなるため、予測誤差指標として使用される。
2値分類だと、式は簡単になりで表される。
具体例として、犬と猫の分類器を考える。正解が犬の場合、真の確率分布を、と表現する。その時、1つ目の分類器はと推定、2つ目の分類器はと推定したと仮定する。感覚的に、2つ目よりも1つ目の方が推定精度が良さそうだが、交差エントロピーで確認してみる。
1つ目の分類器の交差エントロピーは、
2つ目の分類器の交差エントロピーはとなり、
1つ目の方が交差エントロピーが小さく、0に近づく。
応用数学2
確率・統計の分野に入った。
項目としては以下の通り
・条件付き確率
・ベイズ則
・期待値、分散の求め方
・様々な確率分布の概要
ここでは、条件付き確率とベイズ則について整理したい。
条件付き確率は、ある事象が起こったときに別の事象が起こる確率を意味する。
具体例として、ある高校のある学年における、
ある事象→生徒の性別、別の事象→技術、家庭科の選択科目(ここでは高校生) を想定する。
男性 | 女性 | 合計 | |
---|---|---|---|
技術 | 12 | 6 | 18 |
美術 | 6 | 12 | 18 |
家庭 | 9 | 15 | 24 |
合計 | 27 | 33 | 60 |
このとき、生徒が「男性」とわかっているときの「技術を選択している」確率は数式ではである、その値は表を参照すればと比較的容易にわかる。
条件付き確率の公式は、 である。今回の例で確かめてみる。
左辺は先述の通り4/9だが、
右辺の分子、(全体で)「男子」かつ「技術を選択している」確率は、、
右辺の分母となる。
よって、右辺はとなり左辺と等しくなる。
次に、ベイズ則についてだが、今回の例ではが成立することを意味している。
左辺については、前に計算した結果を用いて、となる。
右辺については、「技術を選択している」前提で「男性」である確率、、
(全体で)「技術を選択している」確率、となる。
よって、その積はとなり、左辺と等しいことを確認できた。
ちなみに、このは先述したと同一である。
応用数学1
ここでは線形代数を学習する。
前半は行列の加減、積、逆行列など高校の数学レベルだが、
後半に出てくる固有値は機械学習の主成分分析のベースとなる考え方だ。
※:正方行列
さらに、以下の固有値分解が成立する。
固有値を対角に並べた行列
固有ベクトルを並べた行列
簡単な例題をやってみる。
より、
なので、
の固有ベクトルは、
の固有ベクトルは ※
よって、固有値分解の式は以下の通り。
〇後記
初めて本格的にはてなブログで書いた。一般的な数式の記述はTexのおかげですいすいだったが、行列の記述に異様に手間取った。一番簡単と思われる、「見たままモード」だと、Texの列区切である"&"を記述するとamp;なる変な文字がついてきてしまう。調べまくった結果、「はてなモード」では、そのような不具合が出ないというので、「はてなモード」へ切り替えてしまった。(先人も同じような所で苦労をされてました)
なんだかんだ言って、全部で2時間以上かかった。先が思いやられる。