hans

hans

【Machine Learning】【Math】常用定义备忘录(线性代数、概率论、统计学)


不断学习大量新知识,有些内容掌握的快,遗忘的也快。所以弄个备忘录,方便快速查看。

【2017.6.14
开始记录】--------------------------------------------------------------------------------------------------------------------------------------------------------------

期望(数学期望):#

均值。 试验中每次可能结果的概率乘以其结果的总和 。

标准差(均方差):#

与均值差的平方和的平方根,用 σ 表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
1668632820404.jpg

方差:#

表示数据的离散程度,就是变量和期望的离散程度。标准差的平方。

协方差:#

用于衡量两个变量的总体误差。 方差是协方差的一种特殊情况,即当两个变量是相同的情况。期望值分别为 E [ X ] 与 E [ Y
] 的两个实随机变量 XY 之间的协方差 Cov(X,Y) 定义为:

1668632882495.jpg

L-1 范数:#

绝对值的和

L-2 范数:#

平方和的平方根

L-N 范数:#

N 次方和的 N 方根

曼哈顿距离:#

L-1 距离

欧式距离(欧几里得度量):#

L-2 距离

交叉熵:#

可在神经网络 (机器学习) 中作为损失函数,p 表示真实标记的分布,q 则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量 p 与 q 的相似性。
1668632960423.jpg
,也可以写作: -Ep (xi)*log (q (xi))

【2017.6.23
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

最小二乘(最小平方,OLS):#

最小化误差平方和,寻求参数。拟合,回归。通过求偏导解参数,带入原函数得到数学模型。L-2 距离

最大似然估计(MLE):#

在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数 θ 作为真实 θ*
的参数估计。反推最大概率能达到已知结果的参数值。Kullback-Leibler 距离(相对熵)。

Kullback-Leibler 距离(相对熵):#

DKL (P|Q) 用于度量同一概率空间两个概率分布 P,Q 之间的距离,在实际应用中 P 往往代表的是数据真实的分布,而 Q 一般是对 P 的逼近.
1668633007983.jpg

【2017.7.6
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

径向基函数:#

径向基函数是一个取值仅仅依赖于离原点距离的实值函数,也就是 Φ(x)=Φ(‖x‖), 或者还可以是到任意一点 c 的距离,c 点称为中心点,也就是 Φ(x,c)=Φ(‖x-c‖)。任意一个满足 Φ(x)=Φ(‖x‖) 特性的函数 Φ 都叫做径向基函数,标准的一般使用欧氏距离(也叫做欧式径向基函数),尽管其他距离函数也是可以的。在神经网络结构中,可以作为全连接层和 ReLU 层的主要函数。在支持向量机中,作为核函数。SVM 中参数 gamma 就是径向基函数的参数。

【2017.7.27
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

决定记一些 ML 的内容,平时工作只是使用框架工具。底层知识看了很多,还是会忘。

初始化:#

让数据具有 0 均值和单位方差,减去均值,除以方差。

  1. 卷积神经网络训练和测试的时候会将输入减 去均值 ,目的是让输入分布在原点周围,加快拟合速度。

  2. 输入数据初始化一般还有 ** 白化 ** ,就是去相关性。常用的方法有 PCA 白化:对数据 PCA 操作后,在进行方差归一化。白化计算量大,反向传 播 不一定可导,所以不推荐使用。

  3. Batch Normalization:只是下面算法,随着层数加深会降低模型的表达能力。所以加了两个参数(图 2)。

1668633072243.jpg

以上参考自: http://blog.csdn.net/elaine_bao/article/details/50890491

DropOut:#

作用是防止过拟合。加深网络层数和增加神经元数量(deeper and wider)可以提高 CNN 的表达和分类能力,但会更容易过拟合。

这个方法可以使用在任意层之后。

具体点说,就是在训练的时候,随机让部分网络节点不工作,即输出为 0。

DropConnect:#

训练的时候,随机让部分权重为 0。其他同上。
1668633160656.jpg

以上参考自: http://blog.csdn.net/elaine_bao/article/details/50890473

【2017.8.31
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

卷积网络参数初始化#

如果参数初始化太小,那么数据在每层传递时逐渐缩小而难以产生作用。如果初始化数值太大,那么数据在每层间传递时逐渐放大而导致发散和失效。

  1. xavier 初始化就是将参数在下面范围 均匀 分布。与 ReLU 搭配效果突出。in 表示当前层输入维度,out 表示当前层输出维度。

20170831160918833

  1. MSRAFiler 初始化,只考虑输入个数时,初始化是一个 0 均值,2/n 方差的高斯分布。

20170831161324550

  1. uniform 初始化就是把参数进行均匀分布初始化,用 min 和 max 控制上下限,默认为(0,1)。

  2. Gaussian 初始化,根据给定的均值和标准差生成高斯分布。

  3. constant 初始化,根据给定常数初始化参数,默认为 0。

【2017.11.14
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

第一类间断点(discontinuity point of the first kind)#

如果 x0 是函数 f (x) 的间断点,且左极限和右极限都存在,则称 x0 为函数 f (x) 的 第一类间断点

在第一类间断点中,左右极限相等且不等于 f (x0) 者称为 可去间断点 ,不相等者称为 跳跃间断点

非第一类间断点即为第二类间断点(discontinuity point of the second kind)

狄里赫利条件(Dirichlet Conditions)#

有的地方会写成 “狄里赫莱条件”

狄里赫利认为,只有在满足一定条件时,周期信号才能展开成傅里叶级数。其内容为:

1. 函数在任意有限区间内连续,或只有有限个第一类间断点。

2. 在一个周期内,函数有有限个极大值或极小值。

3.x (t) 在单个周期内绝对可积,即

1668633334577.jpg

傅里叶变换(Fourier Transform)#

定义:f (t) 是 t 的周期函数,如果 t 满足狄里赫利条件,则有下式成立。称为积分运算 f (t) 的傅里叶变换

1668633376932.jpg

下列公式的积分运算叫做 F (ω) 的 傅里叶逆变换

1668633417514.jpg

F (ω) 叫做 f (t) 的 像函数,

f (t) 叫做 F ( ω ) 的 像原函数。

F (ω) 是 f (t) 的 像,

f (t) 是 F ( ω ) 的 原像。

傅里叶级数(Fourier Series)#

连续形式的傅里叶变换其实是傅里叶级数的推广,因为积分其实是一种极限形式的求和算子。

对于周期函数,它的傅里叶级数表示被定义为:

1668633464950.jpg

其中 T 为函数的周期,Fn 为傅里叶展开系数:

1668633505523.jpg

对于 实值函数 (值域为实数的函数),函数的傅里叶级数可以写成:
1668633578610.jpg

其中,an 和 bn 是实频率分量的振幅。

离散傅里叶变换(Discrete Fourier Transform,DFT)#

为了在科学计算和数字信号处理等领域使用计算机进行傅里叶变换,必须将函数定义在离散点上而非连续域内,且须满足有限性或周期性条件。

这种情况下,序列 image 的离散傅里叶变换为:

1668633628401.jpg

其逆变换为:

1668633691373.jpg

直接使用 DFT 的定义计算的计算复杂度为 O (N 的平方),而快速傅里叶变换(Fast Fourier
Transform,FFT)可以将复杂度改进为 O (nlogn)。

以上内容参考自《百度百科》

更详细的傅里叶变换公式理解,可以参考: https://www.zhihu.com/question/19714540

含义、意义理解,可以参考: https://zhuanlan.zhihu.com/wille/19763358

复数运算#

加法:实部相加,虚部相加。

减法:实部相减,虚部相减。

乘法:

(a,ib)×(c,id)

=ac + aid + ibc + i^2bd

=(ac - db)+ i(ad + bc)

(i^2 = -1)

如果放在坐标系中表示复数,则横轴为实数部分,纵轴为虚数部分。

复数(a,ib)的模长为 sqrt(a^2 + b^2)

同理可以得出复数的乘法运算在坐标系中体现为:模长相乘,幅角相加。

多项式的系数表示与点值表示#

一个最高次项为 n 的多项式,有 n+1 个系数。(0 ~ n)

1. 如果将这 n+1 个系数构成一个 n+1 维的向量,可以唯一的确定出一个多项式。这个向量就是 系数表达式

2. 如果带入 n 个数字,求算出 n 个对应的值,可以唯一的确定出一个多项式,这些数字和值就构成了 点值表达式

克罗内克积(Kronecker Product)#

A 圈乘 B,如果 A 是一个 m×n 的矩阵,而 B 是一个 p×q 的矩阵,克罗内克积则是一个 mp×nq 的分块矩阵。

1668633741923.jpg

【2017.11.15
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

狄拉克 δ 函数(Dirac Delta Function)#

定义:

1668633779259.jpg

性质:

1668633827119.jpg

根据其性质,δ(t) 可以用来表示任意一个信号。

并且在傅里叶变换公式推导中,有用到此性质。

未完待续…

Loading...
Ownership of this post data is guaranteed by blockchain and smart contracts to the creator alone.