从最简单的测量误差讲到极大似然,最小二乘和高斯分布

引言

还在我们上小学自然科学课的时候,就在接触各种实验数据了。比如:小车的长度、烧开一壶水的时间、化学容器的容积等等。当然粗心大意的我们在做完一系列实验过后惊奇的发现,实验结果竟然和书上写的结论不符。看着我们一脸稚气、迷惑而自责的样子,于是老师安慰道:没事,一切都是在误差允许的范围内的。
这个时候我们第一次接触了误差这个东西。那么怎么减少误差呢?或许这道题目就出现过在你的试卷上。其中一个正确的答案是:多次测量取算数平均值。
但是,为什么呢?为什么取算数平均值可以减少误差呢?让我们来解决这问题吧!

追寻高斯的影子

故事的开始

关于取平均值法,实际上在人们弄清楚它到底是科学的还是凭感觉之前,古人们已经使用大约一千年不止了。可是如此数学家们还是很好奇这个问题的答案。此前也有几个人给出过一些解释,不过都效果不太好,直到一个叫做高斯的男人出现。今天我们就来看看这个数学伟人是怎么证明的吧。
在开始数学证明开始之前,我们先来看一下故事的开始。

1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众。

如果你也是数学爱好者,一定记得这就是松鼠科学会中的相关文章。那么问题来了高斯是怎么解决的呢?让我们开始进入数学模式。
这里我向各位保证只要你有一些简单的高等数学知识就可以听的懂,我也会尽量解释的详细,如果觉得自己理解能力差的,不妨把这当成一个挑战总之,让我们开始吧。

数学证明开始

首先让我们确定一下问题的本质:我们要了解的是什么呢?是误差。误差是不确定的因素,我们不可能知道我们对下一次测量的误差是多少,不过我们或许可以给出下一次测量的时候出现某个大小的误差的发生的可能性。如果说真实的值是不变的,那么误差就是那个经常改变的那个东西。那么怎么分析一个经常改变的量呢?概率密度曲线。还记得吧。
现在我们不妨认为误差的概率密度是函数

这个 $ f(x) $ 在这里表示什么呢。比如出现的误差是 $x_1$ ,那么我轻易的知道出现误差是 $ x_1 $ 的概率为 $ f(x_1) $ ,这再明显不过了,因为这就是概率密度的定义。
现在我们设物体的实际的值为$ \Psi $,那么可以轻松的知道测量时得到某个值的概率大小。

其中 $X$ 是每次观察的值。那么我们怎么研究误差呢?和一切科学一样我们要实验,我们要有一组观测数据。当然这里你没有必要真正的观测,而是认为自己观测了一组数据 $X_i$,其中i为1到N,N为你观测的次数。
注意!这里第一个关键的问题来了。

极大似然法简单介绍(选读)

这里请读者思考一个问题:我为什么会实实在在的观测到这些值呢?
当然答案有很多种,思考的角度不同结果也不相同。极大似然法是这样思考的。既然我观测到了这样的数据,证明原来数据的概率分布一定是使我观察到这样结果最大的分布。
你或许会说,这太自负了。数据和你本身有什么关系。别自以为是了。然而,就经验而言,这样的自以为是是有着他的道理的。比如我们说一个小口袋里有若干小球,其中只有红色和白色。你有放回的摸了10次,其中红球是3个,白球是7个。那么你觉得袋子里的红白颜色球的比例是多少呢?3比7。你甚至不需要计算时间。但是为什么是这个数字呢。
实际上我们在计算试这个10次随机实验中发生当前概率最大的红白分布。假设其中红球的概率是$P(X=red)=p$,那么白球出现的概率就是$P(X=wite)=(1-p)=q$,那么我们发现当前这个结果发生的概率是

我们实际在求这个函数的极大值时的p的值。当然有一种写法。

使用极大似然法

接上方。根据极大似然我们便可以知道产生我们这组观测数据的概率是,每个发生的概率的积。

那么我们要做的就是求这个函数的极值点。这里有一些小技巧。其实说不上技巧啦,你看多了别人的推到经常使用,就是我们在取极值点时不喜欢相乘的形式而喜欢相加的形式。于是这我们往往取以$e$为底的对数。原式变为:

根据对数的性质很容器得到上式。

这里使用了对数的性质:$ln{(X.Y)}=ln{X}+ln{Y}$

那么我们就要去求这个式子的导数,然后令他等于0就好了。于是:

这里使用了联合函数求导公式和对数求导公式:$h(x)=f(g(x)) => h^{‘}(x)=f^{‘}(g(x).g^{‘}(x);{ln{X}}^{‘}=\frac{1}{X} $

这里我们不妨令$g(x) = \frac{f^{‘}(x)}{f(x)}$于是乎原式变为:

现在,第二个重要的部分来了。这个怎么求出函数$f(x)$呢?我们天才高斯这里做了一个假设。那就是我们刚才的真实值$\Psi = \bar{x}$,既然我们多年使用的算术平均值是有效的,那么我便认为平均值就是真实值好了。这个简单而合理的假设就是高斯天才的地方。现在原式变为:

这里要注意一下,很多时候我都容易想不清楚。这里上式是具有一般性的式子。也就是说我们可以任意的捏造X的数值特征下,它都满足。以此方法求出我们需要的$f(x)$。这就是典型的由一般到特殊再到一般的过程。
首先让$N=2$,我们先考虑只有两个测量值的简单情况。看看代入到原式会发生什么。

注意观察这个公式。请记住我们有$x_1$和$x_2$的算术平均值$\bar{x}$。于是有了$x_1+x_2=\bar{x}+\bar{x}$。现在简单的进行变换可以得到一个和上式有关的形式。

于是我们得到了下面这等式:

那么g(x)是一个奇函数没跑了。
接下来对$X$的限制比较多。但是没有到达不能理解的地步,让我们来看一下。现在不妨令$N=m+1$,之后令前m项目都相等值为$x$,而最后一项的值正好是$-mx$。下面我们用公式来表示这个要求:

这样有一个好处就是这时我们可爱的$\bar{x}$已经光荣的等于0了。好了我们现在往原式带入便得到了下面的形式。

好了,如果熟悉柯西方程的同学们应该一口就说出了$g(x)=cx$(其中c是一个常数)。当然你不熟悉也没有关系,我这里会进行一个简单的证明。这里或许和你的教科书上并没有什么不同。你当然可以跳过这一段了。

柯西方程(选读)

如果你有耐心读下去会发现真的不难,甚至会自然的解答关于上一些证明方法的部分疑问的情绪。好了先让我们忘了上面该死的

$g(x)$。来看看一个简单的形式:

由此式超级容易知道:

现在令$x_1= x_2 = \cdot =x_n = x$,于是乎原式等于:

现在再令$x=\frac{m}{n}$注意这里面的m与n都是整数。代入继续看看会发生什么:

我们现在把等号左侧的n除过去,便可以得到我们需要的形式了:

现在我们将$\frac{m}{n}$作为一个整体,其中$f(1)$是一个常数我们认为他就是c就好了。于是乎得到了$f(x)=cx$了。注意这里的m与n都是整数,所以上面的证明其实不完备,只是证明了有理数的部分。如果为了严谨我们要证明在无理数的情况下依然成立。这里只需要证明cx的形式在无理数的情况下也成立即可。我此处省略了,欢迎大家查阅资料。

最后的函数方程

现在我们回到正题刚才我们得到了$g(x)=cx$,但是还记得吗?我们要求的是$f(x)$。于是乎我们最终要求的函数方程便成为:

这里我没有找到现成的证明,于是我自己尝试了一个解法。可能是错的,大家也可以尝试着自己解一下。我的方法是:

这里的exp表达的是$e^x$

之后带入原式就可以解出来了:

这个形式其实是和我们熟悉的高斯分布的形式是等效的。

小结

我们现在来看一下我们熟悉的高斯分布的形式然后我会对我们得到这个形式做一定的解释。高斯分布他老人家是张的这样的:

其中我们可以清楚的看到我们误差的均值是0。认真思考一下误差的均值一定是零的。于是乎我们跟随高斯大神当年的脚步,发现了高斯分布。其中关键就是一个符合常理的假设,真实值为算术平均值。

向高斯提出质疑

我们现在好好回想一下高斯的证明。会发现有一些问题。首先为啥实际值可以为算术平局值呢?是因为测量的误差符合正态分布。但是还记得我们怎么推到出正态分布吗?我们假设了真实值就是算术平局值吗?我的天,难道高斯的证明虽然很优美但是却是循环论证。不错,仔细思考一下这就是循环论证。那么问题在哪里呢?怎能逃出这个怪圈呢?
现在我们想一下误差要服从正态分布的原因。真的是因为真实值是算术平局值吗?不,不是的。那么我们怎么确信误差就是符合正态分布的呢?答案有很多。其中有两个说发比较经典。
中心极限定理。这个定理说明什么呢?许多概率分布在满足一定条件下,有无穷多个的时候,他们的总体概率分布竟然意外的可以近似为正态分布。我的天,这也太神奇了。也就说,一般有许多不确定因素引起的误差,一起作用的结果就是符合正态分布的。
还有一个解释是最大熵原则。也就是说在确定了均值和方差的情况下,正态分布是保证系统熵最大的分布。(关于这结论的具体证明我没有找到)也就是说我们在测量了一组数据之后,我们认为他是符合正态分布是有道理的。

由极大似然到最小二乘法

现在我们再简单的介绍一下最小二乘法。在进行数学推导之前,我们先给出他的思想,因为他的思想真的很好的理解。就是总体误差值的距离和最小。我们知道误差是有正有负的,不过那些数学家不太愿意去分情况了解其正负,反正是取距离的大小趋势,那么比起取绝对值,使用平方研究起来简单多了。我们只要保证所有的误差和的平方最小就好了。用公式表示就是这样:

那么这里和极大似然法又有什么联系呢?让我们把均值为0的高斯分布作为误差函数代回到之前的极大似然法中

要注意的是这里x是误差值哦。那么出现某个测量值概率应该是什么呢?

所以我们可以得到极大似然的目标函数

我们要使这个式子得到最大值。那么我们就要使$\frac{(x-X_i)^2}{2\sigma^2}$得到最小值,因为前面有个负号嘛。欸,这样不就等效了吗?
也就是说在误差符合正态分布的情况下,最小二乘和极大似然是等效的。

给作者买杯咖啡吧。喵~