hans

hans

【機器學習】【數學】常用定義備忘錄(線性代數、概率論、統計學)


不斷學習大量新知識,有些內容掌握的快,遺忘的也快。所以弄個備忘錄,方便快速查看。

【2017.6.14
開始記錄】--------------------------------------------------------------------------------------------------------------------------------------------------------------

期望(數學期望):#

均值。 試驗中每次可能結果的概率乘以其結果的總和 。

標準差(均方差):#

與均值差的平方和的平方根,用 σ 表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
1668632820404.jpg

方差:#

表示數據的離散程度,就是變量和期望的離散程度。標準差的平方。

協方差:#

用於衡量兩個變量的總體誤差。 方差是協方差的一種特殊情況,即當兩個變量是相同的情況。期望值分別為 E [ X ] 與 E [ Y
] 的兩個實隨機變量 XY 之間的協方差 Cov(X,Y) 定義為:

1668632882495.jpg

L-1 範數:#

絕對值的和

L-2 範數:#

平方和的平方根

L-N 範數:#

N 次方和的 N 方根

曼哈頓距離:#

L-1 距離

歐式距離(歐幾里得度量):#

L-2 距離

交叉熵:#

可在神經網絡 (機器學習) 中作為損失函數,p 表示真實標記的分佈,q 則為訓練後的模型的預測標記分佈,交叉熵損失函數可以衡量 p 與 q 的相似性。
1668632960423.jpg
,也可以寫作: -Ep (xi)*log (q (xi))

【2017.6.23
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

最小二乘(最小平方,OLS):#

最小化誤差平方和,尋求參數。擬合,回歸。通過求偏導解參數,帶入原函數得到數學模型。L-2 距離

最大似然估計(MLE):#

在已知試驗結果(即是樣本)的情況下,用來估計滿足這些樣本分佈的參數,把可能性最大的那個參數 θ 作為真實 θ*
的參數估計。反推最大概率能達到已知結果的參數值。Kullback-Leibler 距離(相對熵)。

Kullback-Leibler 距離(相對熵):#

DKL (P|Q) 用於度量同一概率空間兩個概率分佈 P,Q 之間的距離,在實際應用中 P 往往代表的是數據真實的分佈,而 Q 一般是對 P 的逼近.
1668633007983.jpg

【2017.7.6
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

徑向基函數:#

徑向基函數是一個取值僅僅依賴於離原點距離的實值函數,也就是 Φ(x)=Φ(‖x‖), 或者還可以是到任意一點 c 的距離,c 點稱為中心點,也就是 Φ(x,c)=Φ(‖x-c‖)。任意一個滿足 Φ(x)=Φ(‖x‖) 特性的函數 Φ 都叫做徑向基函數,標準的一般使用歐氏距離(也叫做歐式徑向基函數),儘管其他距離函數也是可以的。在神經網絡結構中,可以作為全連接層和 ReLU 層的主要函數。在支持向量機中,作為核函數。SVM 中參數 gamma 就是徑向基函數的參數。

【2017.7.27
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

決定記一些 ML 的內容,平時工作只是使用框架工具。底層知識看了很多,還是會忘。

初始化:#

讓數據具有 0 均值和單位方差,減去均值,除以方差。

  1. 卷積神經網絡訓練和測試的時候會將輸入減 去均值 ,目的是讓輸入分佈在原點周圍,加快擬合速度。

  2. 輸入數據初始化一般還有 ** 白化 ** ,就是去相關性。常用的方法有 PCA 白化:對數據 PCA 操作後,在進行方差歸一化。白化計算量大,反向傳 播 不一定可導,所以不推薦使用。

  3. Batch Normalization:只是下面算法,隨著層數加深會降低模型的表達能力。所以加了兩個參數(圖 2)。

1668633072243.jpg

以上參考自: http://blog.csdn.net/elaine_bao/article/details/50890491

DropOut:#

作用是防止過擬合。加深網絡層數和增加神經元數量(deeper and wider)可以提高 CNN 的表達和分類能力,但會更容易過擬合。

這個方法可以使用在任意層之後。

具體點說,就是在訓練的時候,隨機讓部分網絡節點不工作,即輸出為 0。

DropConnect:#

訓練的時候,隨機讓部分權重為 0。其他同上。
1668633160656.jpg

以上參考自: http://blog.csdn.net/elaine_bao/article/details/50890473

【2017.8.31
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

卷積網絡參數初始化#

如果參數初始化太小,那麼數據在每層傳遞時逐漸縮小而難以產生作用。如果初始化數值太大,那麼數據在每層間傳遞時逐漸放大而導致發散和失效。

  1. xavier 初始化就是將參數在下面範圍 均勻 分佈。與 ReLU 搭配效果突出。in 表示當前層輸入維度,out 表示當前層輸出維度。

20170831160918833

  1. MSRAFiler 初始化,只考慮輸入個數時,初始化是一個 0 均值,2/n 方差的高斯分佈。

20170831161324550

  1. uniform 初始化就是把參數進行均勻分佈初始化,用 min 和 max 控制上下限,默認為(0,1)。

  2. Gaussian 初始化,根據給定的均值和標準差生成高斯分佈。

  3. constant 初始化,根據給定常數初始化參數,默認為 0。

【2017.11.14
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

第一類間斷點(discontinuity point of the first kind)#

如果 x0 是函數 f (x) 的間斷點,且左極限和右極限都存在,則稱 x0 為函數 f (x) 的 第一類間斷點

在第一類間斷點中,左右極限相等且不等於 f (x0) 者稱為 可去間斷點 ,不相等者稱為 跳躍間斷點

非第一類間斷點即為第二類間斷點(discontinuity point of the second kind)

狄里赫利條件(Dirichlet Conditions)#

有的地方會寫成 “狄里赫萊條件”

狄里赫利認為,只有在滿足一定條件時,周期信號才能展開成傅里葉級數。其內容為:

1. 函數在任意有限區間內連續,或只有有限個第一類間斷點。

2. 在一個周期內,函數有有限個極大值或極小值。

3.x (t) 在單個周期內絕對可積,即

1668633334577.jpg

傅里葉變換(Fourier Transform)#

定義:f (t) 是 t 的周期函數,如果 t 滿足狄里赫利條件,則有下式成立。稱為積分運算 f (t) 的傅里葉變換

1668633376932.jpg

下列公式的積分運算叫做 F (ω) 的 傅里葉逆變換

1668633417514.jpg

F (ω) 叫做 f (t) 的 像函數,

f (t) 叫做 F ( ω ) 的 像原函數。

F (ω) 是 f (t) 的 像,

f (t) 是 F ( ω ) 的 原像。

傅里葉級數(Fourier Series)#

連續形式的傅里葉變換其實是傅里葉級數的推廣,因為積分其實是一種極限形式的求和算子。

對於周期函數,它的傅里葉級數表示被定義為:

1668633464950.jpg

其中 T 為函數的周期,Fn 為傅里葉展開係數:

1668633505523.jpg

對於 實值函數 (值域為實數的函數),函數的傅里葉級數可以寫成:
1668633578610.jpg

其中,an 和 bn 是實頻率分量的振幅。

離散傅里葉變換(Discrete Fourier Transform,DFT)#

為了在科學計算和數字信號處理等領域使用計算機進行傅里葉變換,必須將函數定義在離散點上而非連續域內,且須滿足有限性或周期性條件。

這種情況下,序列 image 的離散傅里葉變換為:

1668633628401.jpg

其逆變換為:

1668633691373.jpg

直接使用 DFT 的定義計算的計算複雜度為 O (N 的平方),而快速傅里葉變換(Fast Fourier
Transform,FFT)可以將複雜度改進為 O (nlogn)。

以上內容參考自《百度百科》

更詳細的傅里葉變換公式理解,可以參考: https://www.zhihu.com/question/19714540

含義、意義理解,可以參考: https://zhuanlan.zhihu.com/wille/19763358

複數運算#

加法:實部相加,虛部相加。

減法:實部相減,虛部相減。

乘法:

(a,ib)×(c,id)

=ac + aid + ibc + i^2bd

=(ac - db)+ i(ad + bc)

(i^2 = -1)

如果放在坐標系中表示複數,則橫軸為實數部分,縱軸為虛數部分。

複數(a,ib)的模長為 sqrt(a^2 + b^2)

同理可以得出複數的乘法運算在坐標系中體現為:模長相乘,幅角相加。

多項式的係數表示與點值表示#

一個最高次項為 n 的多項式,有 n+1 個係數。(0 ~ n)

1. 如果將這 n+1 個係數構成一個 n+1 維的向量,可以唯一的確定出一個多項式。這個向量就是 係數表達式

2. 如果帶入 n 個數字,求算出 n 個對應的值,可以唯一的確定出一個多項式,這些數字和值就構成了 點值表達式

克羅內克積(Kronecker Product)#

A 圈乘 B,如果 A 是一個 m×n 的矩陣,而 B 是一個 p×q 的矩陣,克羅內克積則是一個 mp×nq 的分塊矩陣。

1668633741923.jpg

【2017.11.15
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

狄拉克 δ 函數(Dirac Delta Function)#

定義:

1668633779259.jpg

性質:

1668633827119.jpg

根據其性質,δ(t) 可以用來表示任意一個信號。

並且在傅里葉變換公式推導中,有用到此性質。

未完待續…

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。