不斷學習大量新知識,有些內容掌握的快,遺忘的也快。所以弄個備忘錄,方便快速查看。
【2017.6.14
開始記錄】--------------------------------------------------------------------------------------------------------------------------------------------------------------
期望(數學期望):#
均值。 試驗中每次可能結果的概率乘以其結果的總和 。
標準差(均方差):#
與均值差的平方和的平方根,用 σ 表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
方差:#
表示數據的離散程度,就是變量和期望的離散程度。標準差的平方。
協方差:#
用於衡量兩個變量的總體誤差。 方差是協方差的一種特殊情況,即當兩個變量是相同的情況。期望值分別為 E [ X ] 與 E [ Y
] 的兩個實隨機變量 X 與 Y 之間的協方差 Cov(X,Y) 定義為:
L-1 範數:#
絕對值的和
L-2 範數:#
平方和的平方根
L-N 範數:#
N 次方和的 N 方根
曼哈頓距離:#
L-1 距離
歐式距離(歐幾里得度量):#
L-2 距離
交叉熵:#
可在神經網絡 (機器學習) 中作為損失函數,p 表示真實標記的分佈,q 則為訓練後的模型的預測標記分佈,交叉熵損失函數可以衡量 p 與 q 的相似性。
,也可以寫作: -Ep (xi)*log (q (xi))
【2017.6.23
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------
最小二乘(最小平方,OLS):#
最小化誤差平方和,尋求參數。擬合,回歸。通過求偏導解參數,帶入原函數得到數學模型。L-2 距離
最大似然估計(MLE):#
在已知試驗結果(即是樣本)的情況下,用來估計滿足這些樣本分佈的參數,把可能性最大的那個參數 θ 作為真實 θ*
的參數估計。反推最大概率能達到已知結果的參數值。Kullback-Leibler 距離(相對熵)。
Kullback-Leibler 距離(相對熵):#
DKL (P|Q) 用於度量同一概率空間兩個概率分佈 P,Q 之間的距離,在實際應用中 P 往往代表的是數據真實的分佈,而 Q 一般是對 P 的逼近.
【2017.7.6
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------
徑向基函數:#
徑向基函數是一個取值僅僅依賴於離原點距離的實值函數,也就是 Φ(x)=Φ(‖x‖), 或者還可以是到任意一點 c 的距離,c 點稱為中心點,也就是 Φ(x,c)=Φ(‖x-c‖)。任意一個滿足 Φ(x)=Φ(‖x‖) 特性的函數 Φ 都叫做徑向基函數,標準的一般使用歐氏距離(也叫做歐式徑向基函數),儘管其他距離函數也是可以的。在神經網絡結構中,可以作為全連接層和 ReLU 層的主要函數。在支持向量機中,作為核函數。SVM 中參數 gamma 就是徑向基函數的參數。
【2017.7.27
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------
決定記一些 ML 的內容,平時工作只是使用框架工具。底層知識看了很多,還是會忘。
初始化:#
讓數據具有 0 均值和單位方差,減去均值,除以方差。
-
卷積神經網絡訓練和測試的時候會將輸入減 去均值 ,目的是讓輸入分佈在原點周圍,加快擬合速度。
-
輸入數據初始化一般還有 ** 白化 ** ,就是去相關性。常用的方法有 PCA 白化:對數據 PCA 操作後,在進行方差歸一化。白化計算量大,反向傳 播 不一定可導,所以不推薦使用。
-
Batch Normalization:只是下面算法,隨著層數加深會降低模型的表達能力。所以加了兩個參數(圖 2)。
以上參考自: http://blog.csdn.net/elaine_bao/article/details/50890491
DropOut:#
作用是防止過擬合。加深網絡層數和增加神經元數量(deeper and wider)可以提高 CNN 的表達和分類能力,但會更容易過擬合。
這個方法可以使用在任意層之後。
具體點說,就是在訓練的時候,隨機讓部分網絡節點不工作,即輸出為 0。
DropConnect:#
訓練的時候,隨機讓部分權重為 0。其他同上。
以上參考自: http://blog.csdn.net/elaine_bao/article/details/50890473
【2017.8.31
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------
卷積網絡參數初始化#
如果參數初始化太小,那麼數據在每層傳遞時逐漸縮小而難以產生作用。如果初始化數值太大,那麼數據在每層間傳遞時逐漸放大而導致發散和失效。
- xavier 初始化就是將參數在下面範圍 均勻 分佈。與 ReLU 搭配效果突出。in 表示當前層輸入維度,out 表示當前層輸出維度。
- MSRAFiler 初始化,只考慮輸入個數時,初始化是一個 0 均值,2/n 方差的高斯分佈。
-
uniform 初始化就是把參數進行均勻分佈初始化,用 min 和 max 控制上下限,默認為(0,1)。
-
Gaussian 初始化,根據給定的均值和標準差生成高斯分佈。
-
constant 初始化,根據給定常數初始化參數,默認為 0。
【2017.11.14
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------
第一類間斷點(discontinuity point of the first kind)#
如果 x0 是函數 f (x) 的間斷點,且左極限和右極限都存在,則稱 x0 為函數 f (x) 的 第一類間斷點 。
在第一類間斷點中,左右極限相等且不等於 f (x0) 者稱為 可去間斷點 ,不相等者稱為 跳躍間斷點 。
非第一類間斷點即為第二類間斷點(discontinuity point of the second kind)
狄里赫利條件(Dirichlet Conditions)#
有的地方會寫成 “狄里赫萊條件”
狄里赫利認為,只有在滿足一定條件時,周期信號才能展開成傅里葉級數。其內容為:
1. 函數在任意有限區間內連續,或只有有限個第一類間斷點。
2. 在一個周期內,函數有有限個極大值或極小值。
3.x (t) 在單個周期內絕對可積,即
傅里葉變換(Fourier Transform)#
定義:f (t) 是 t 的周期函數,如果 t 滿足狄里赫利條件,則有下式成立。稱為積分運算 f (t) 的傅里葉變換
下列公式的積分運算叫做 F (ω) 的 傅里葉逆變換 。
F (ω) 叫做 f (t) 的 像函數,
f (t) 叫做 F ( ω ) 的 像原函數。
F (ω) 是 f (t) 的 像,
f (t) 是 F ( ω ) 的 原像。
傅里葉級數(Fourier Series)#
連續形式的傅里葉變換其實是傅里葉級數的推廣,因為積分其實是一種極限形式的求和算子。
對於周期函數,它的傅里葉級數表示被定義為:
其中 T 為函數的周期,Fn 為傅里葉展開係數:
對於 實值函數 (值域為實數的函數),函數的傅里葉級數可以寫成:
其中,an 和 bn 是實頻率分量的振幅。
離散傅里葉變換(Discrete Fourier Transform,DFT)#
為了在科學計算和數字信號處理等領域使用計算機進行傅里葉變換,必須將函數定義在離散點上而非連續域內,且須滿足有限性或周期性條件。
這種情況下,序列 的離散傅里葉變換為:
其逆變換為:
直接使用 DFT 的定義計算的計算複雜度為 O (N 的平方),而快速傅里葉變換(Fast Fourier
Transform,FFT)可以將複雜度改進為 O (nlogn)。
以上內容參考自《百度百科》
更詳細的傅里葉變換公式理解,可以參考: https://www.zhihu.com/question/19714540
含義、意義理解,可以參考: https://zhuanlan.zhihu.com/wille/19763358
複數運算#
加法:實部相加,虛部相加。
減法:實部相減,虛部相減。
乘法:
(a,ib)×(c,id)
=ac + aid + ibc + i^2bd
=(ac - db)+ i(ad + bc)
(i^2 = -1)
如果放在坐標系中表示複數,則橫軸為實數部分,縱軸為虛數部分。
複數(a,ib)的模長為 sqrt(a^2 + b^2)
同理可以得出複數的乘法運算在坐標系中體現為:模長相乘,幅角相加。
多項式的係數表示與點值表示#
一個最高次項為 n 的多項式,有 n+1 個係數。(0 ~ n)
1. 如果將這 n+1 個係數構成一個 n+1 維的向量,可以唯一的確定出一個多項式。這個向量就是 係數表達式 。
2. 如果帶入 n 個數字,求算出 n 個對應的值,可以唯一的確定出一個多項式,這些數字和值就構成了 點值表達式 。
克羅內克積(Kronecker Product)#
A 圈乘 B,如果 A 是一個 m×n 的矩陣,而 B 是一個 p×q 的矩陣,克羅內克積則是一個 mp×nq 的分塊矩陣。
【2017.11.15
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------
狄拉克 δ 函數(Dirac Delta Function)#
定義:
性質:
根據其性質,δ(t) 可以用來表示任意一個信號。
並且在傅里葉變換公式推導中,有用到此性質。
未完待續…