hans

hans

【Machine Learning】【Math】常用定义备忘录(线性代数、概率论、统计学)


不断学习大量新知识,有些内容掌握的快,遗忘的也快。所以弄个备忘录,方便快速查看。

【2017.6.14
开始记录】--------------------------------------------------------------------------------------------------------------------------------------------------------------

期望(数学期望):#

均值。 试验中每次可能结果的概率乘以其结果的总和 。

标准差(均方差):#

与均值差的平方和的平方根,用 σ 表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
1668632820404.jpg

方差:#

表示数据的离散程度,就是变量和期望的离散程度。标准差的平方。

协方差:#

用于衡量两个变量的总体误差。 方差是协方差的一种特殊情况,即当两个变量是相同的情况。期望值分别为 E [ X ] 与 E [ Y
] 的两个实随机变量 XY 之间的协方差 Cov(X,Y) 定义为:

1668632882495.jpg

L-1 范数:#

绝对值的和

L-2 范数:#

平方和的平方根

L-N 范数:#

N 次方和的 N 方根

曼哈顿距离:#

L-1 距离

欧式距离(欧几里得度量):#

L-2 距离

交叉熵:#

可在神经网络 (机器学习) 中作为损失函数,p 表示真实标记的分布,q 则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量 p 与 q 的相似性。
1668632960423.jpg
,也可以写作: -Ep (xi)*log (q (xi))

【2017.6.23
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

最小二乘(最小平方,OLS):#

最小化误差平方和,寻求参数。拟合,回归。通过求偏导解参数,带入原函数得到数学模型。L-2 距离

最大似然估计(MLE):#

在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数 θ 作为真实 θ*
的参数估计。反推最大概率能达到已知结果的参数值。Kullback-Leibler 距离(相对熵)。

Kullback-Leibler 距离(相对熵):#

DKL (P|Q) 用于度量同一概率空间两个概率分布 P,Q 之间的距离,在实际应用中 P 往往代表的是数据真实的分布,而 Q 一般是对 P 的逼近.
1668633007983.jpg

【2017.7.6
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

径向基函数:#

径向基函数是一个取值仅仅依赖于离原点距离的实值函数,也就是 Φ(x)=Φ(‖x‖), 或者还可以是到任意一点 c 的距离,c 点称为中心点,也就是 Φ(x,c)=Φ(‖x-c‖)。任意一个满足 Φ(x)=Φ(‖x‖) 特性的函数 Φ 都叫做径向基函数,标准的一般使用欧氏距离(也叫做欧式径向基函数),尽管其他距离函数也是可以的。在神经网络结构中,可以作为全连接层和 ReLU 层的主要函数。在支持向量机中,作为核函数。SVM 中参数 gamma 就是径向基函数的参数。

【2017.7.27
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

决定记一些 ML 的内容,平时工作只是使用框架工具。底层知识看了很多,还是会忘。

初始化:#

让数据具有 0 均值和单位方差,减去均值,除以方差。

  1. 卷积神经网络训练和测试的时候会将输入减 去均值 ,目的是让输入分布在原点周围,加快拟合速度。

  2. 输入数据初始化一般还有 ** 白化 ** ,就是去相关性。常用的方法有 PCA 白化:对数据 PCA 操作后,在进行方差归一化。白化计算量大,反向传 播 不一定可导,所以不推荐使用。

  3. Batch Normalization:只是下面算法,随着层数加深会降低模型的表达能力。所以加了两个参数(图 2)。

1668633072243.jpg

以上参考自: http://blog.csdn.net/elaine_bao/article/details/50890491

DropOut:#

作用是防止过拟合。加深网络层数和增加神经元数量(deeper and wider)可以提高 CNN 的表达和分类能力,但会更容易过拟合。

这个方法可以使用在任意层之后。

具体点说,就是在训练的时候,随机让部分网络节点不工作,即输出为 0。

DropConnect:#

训练的时候,随机让部分权重为 0。其他同上。
1668633160656.jpg

以上参考自: http://blog.csdn.net/elaine_bao/article/details/50890473

【2017.8.31
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

卷积网络参数初始化#

如果参数初始化太小,那么数据在每层传递时逐渐缩小而难以产生作用。如果初始化数值太大,那么数据在每层间传递时逐渐放大而导致发散和失效。

  1. xavier 初始化就是将参数在下面范围 均匀 分布。与 ReLU 搭配效果突出。in 表示当前层输入维度,out 表示当前层输出维度。

20170831160918833

  1. MSRAFiler 初始化,只考虑输入个数时,初始化是一个 0 均值,2/n 方差的高斯分布。

20170831161324550

  1. uniform 初始化就是把参数进行均匀分布初始化,用 min 和 max 控制上下限,默认为(0,1)。

  2. Gaussian 初始化,根据给定的均值和标准差生成高斯分布。

  3. constant 初始化,根据给定常数初始化参数,默认为 0。

【2017.11.14
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

第一类间断点(discontinuity point of the first kind)#

如果 x0 是函数 f (x) 的间断点,且左极限和右极限都存在,则称 x0 为函数 f (x) 的 第一类间断点

在第一类间断点中,左右极限相等且不等于 f (x0) 者称为 可去间断点 ,不相等者称为 跳跃间断点

非第一类间断点即为第二类间断点(discontinuity point of the second kind)

狄里赫利条件(Dirichlet Conditions)#

有的地方会写成 “狄里赫莱条件”

狄里赫利认为,只有在满足一定条件时,周期信号才能展开成傅里叶级数。其内容为:

1. 函数在任意有限区间内连续,或只有有限个第一类间断点。

2. 在一个周期内,函数有有限个极大值或极小值。

3.x (t) 在单个周期内绝对可积,即

1668633334577.jpg

傅里叶变换(Fourier Transform)#

定义:f (t) 是 t 的周期函数,如果 t 满足狄里赫利条件,则有下式成立。称为积分运算 f (t) 的傅里叶变换

1668633376932.jpg

下列公式的积分运算叫做 F (ω) 的 傅里叶逆变换

1668633417514.jpg

F (ω) 叫做 f (t) 的 像函数,

f (t) 叫做 F ( ω ) 的 像原函数。

F (ω) 是 f (t) 的 像,

f (t) 是 F ( ω ) 的 原像。

傅里叶级数(Fourier Series)#

连续形式的傅里叶变换其实是傅里叶级数的推广,因为积分其实是一种极限形式的求和算子。

对于周期函数,它的傅里叶级数表示被定义为:

1668633464950.jpg

其中 T 为函数的周期,Fn 为傅里叶展开系数:

1668633505523.jpg

对于 实值函数 (值域为实数的函数),函数的傅里叶级数可以写成:
1668633578610.jpg

其中,an 和 bn 是实频率分量的振幅。

离散傅里叶变换(Discrete Fourier Transform,DFT)#

为了在科学计算和数字信号处理等领域使用计算机进行傅里叶变换,必须将函数定义在离散点上而非连续域内,且须满足有限性或周期性条件。

这种情况下,序列 image 的离散傅里叶变换为:

1668633628401.jpg

其逆变换为:

1668633691373.jpg

直接使用 DFT 的定义计算的计算复杂度为 O (N 的平方),而快速傅里叶变换(Fast Fourier
Transform,FFT)可以将复杂度改进为 O (nlogn)。

以上内容参考自《百度百科》

更详细的傅里叶变换公式理解,可以参考: https://www.zhihu.com/question/19714540

含义、意义理解,可以参考: https://zhuanlan.zhihu.com/wille/19763358

复数运算#

加法:实部相加,虚部相加。

减法:实部相减,虚部相减。

乘法:

(a,ib)×(c,id)

=ac + aid + ibc + i^2bd

=(ac - db)+ i(ad + bc)

(i^2 = -1)

如果放在坐标系中表示复数,则横轴为实数部分,纵轴为虚数部分。

复数(a,ib)的模长为 sqrt(a^2 + b^2)

同理可以得出复数的乘法运算在坐标系中体现为:模长相乘,幅角相加。

多项式的系数表示与点值表示#

一个最高次项为 n 的多项式,有 n+1 个系数。(0 ~ n)

1. 如果将这 n+1 个系数构成一个 n+1 维的向量,可以唯一的确定出一个多项式。这个向量就是 系数表达式

2. 如果带入 n 个数字,求算出 n 个对应的值,可以唯一的确定出一个多项式,这些数字和值就构成了 点值表达式

克罗内克积(Kronecker Product)#

A 圈乘 B,如果 A 是一个 m×n 的矩阵,而 B 是一个 p×q 的矩阵,克罗内克积则是一个 mp×nq 的分块矩阵。

1668633741923.jpg

【2017.11.15
更新】--------------------------------------------------------------------------------------------------------------------------------------------------------------

狄拉克 δ 函数(Dirac Delta Function)#

定义:

1668633779259.jpg

性质:

1668633827119.jpg

根据其性质,δ(t) 可以用来表示任意一个信号。

并且在傅里叶变换公式推导中,有用到此性质。

未完待续…

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。