https://book.douban.com/people/fleure/annotation/1138189/
参数估计问题是统计学中的经典问题,并且已经有了一些具体的解决方法。这里我们将主要讨论两种最常用和很有效的方法,也就是:最大似然估计和贝叶斯估计。
最大似然估计把待估计的参数看作是确定性的量,只是其取值未知。最佳估计就是使得产生已观测到的样本(即训练样本)的概率为最大的那个值。与此不同的是,贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中,一个典型的效果就是,每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰。这个现象就称为“贝叶斯学习”过程。
正态分布与熵之间有着密切的关系。… 熵是一个非负的量,用来描述从一种分布中随机选取的样本点值的不确定性。可以证明正态分布在所有具有给定的均值和方差的分布中具有最大熵。并且,由中心极限定理所述,大量小的、独立的随机分布的总和等效为一高斯分布。由于所有模式——从鱼到手写字符、到某些语音——都可以看成是由大量随机过程所组成的某个理想的或原型模式,对于实际的概率分布而言,高斯分布通常是一种好的模型。
特征空间中的一个线性变换将一个任意正态分布变换成另一个正态分布。