最大似然估计方法的原理是什么
什么是概率论中的最大似然估计?
什么是概率论中的最大似然估计?
我的结论:最大似然估计需要一个似然函数来描述在不同模型参数下真实数据发生的概率,似然函数是关于模型参数的函数。最大似然估计就是寻找最优参数,使得观测数据发生的概率最大、统计模型与真实数据最相似。
我们以一个赌博的例子来模拟机器学习的概率推理过程。假如你参与了一场赌博,你会被告知一个硬币抛掷10次的正反情况,接下来由你下注,而你只有一次机会,猜对硬币下一次正反情况则赢得100元,猜错则损失100元。这时,你会如何决策?
一般地,硬币有正反两面,如果硬币正反两面是均匀的,即每次抛掷后硬币为正的概率是0.5。使用这个硬币,很可能抛10次,有5次是正面。但是假如有人对硬币做了手脚,比如提前对硬币做了修改,硬币每次都会正面朝上,现在抛10次,10次都是正面,那么下次你绝对不会猜它是反面,因为前面的10次结果摆在那里,直觉上你不会相信这是一个普通的硬币。现在有一人抛了10次硬币,得到6正4反的结果,如何估算下次硬币为正的概率呢?
因为硬币并不是我们制作的,我们不了解硬币是否是完全均匀的,只能根据现在的观察结果来反推硬币的情况。假设硬币上有个参数θ,它决定了硬币的正反均匀程度,θ 0.5表示正反均匀,每次抛硬币为正的概率为0.5,θ 1表示硬币只有正面,每次抛硬币为正的概率为1。那么,从观察到的正反结果,反推硬币的构造参数θ的过程,就是一个参数估计的过程。
概率抛掷10次硬币可能出现不同的情况,可以是“5正5反”、“4正6反”,“10正0反”等。假如我们知道硬币是如何构造的,即已知硬币的参数θ,那么出现“6正4反”的概率为:
公式 1
公式1是概率函数,表示已知参数θ,事实“6正4反”发生的概率。参数θ取不同的值时,事情发生的概率不同。概率(Probability)函数一般用P或Pr表示。 上述过程中,抛10次硬币,要选出6次正面,使用了排列组合。因为“6正4反”可能会出现“正正正正正正反反反反、正正正正正反正反反反、正正正正反正正反反反”等共210种组合,要在10次中选出6次为正面。假如每次正面的概率是0.6,那么反面的概率就是(1-0.6)。每次抛掷硬币的动作是相互独立,互不影响的,“6正4反”发生的概率就是各次抛掷硬币的概率乘积,再乘以210种组合。 概率反映的是:已知背后原因,推测某个结果发生的概率。
似然与概率不同,似然反映的是:已知结果,反推原因。具体而言,似然(Likelihood)函数表示的是基于观察的数据,取不同的参数θ时,统计模型以多大的可能性接近真实观察数据。这就很像开篇提到的赌局,已经给你了一系列硬币正反情况,但你并不知道硬币的构造,下次下注时你要根据已有事实,反推硬币的构造。例如,当观察到硬币“10正0反”的事实,猜测硬币极有可能每次都是正面;当观察到硬币“6正4反”的事实,猜测硬币有可能不是正反均匀的,每次出现正面的可能性是0.6。
似然函数与前面的概率函数的计算方式极其相似,与概率函数不同的是,似然函数是θ的函数,即θ是未知的。似然函数衡量的是在不同参数θ下,真实观察数据发生的可能性。似然函数通常是多个观测数据发生的概率的联合概率,即多个观测数据都发生的概率。单个观测数据发生的可能性为P(θ),如果各个观测之间是相互独立的,那么多个观测数据都发生的概率可表示为各个样本发生的概率的乘积。这里稍微解释一下事件独立性与联合概率之间的关系。如果事件A和事件B相互独立,那么事件A和B同时发生的概率是A发生的概率 * B发生的概率。例如,事件“下雨”与事件“地面湿”就不是相互独立的,“下雨”与地面湿是同时发生、高度相关的,这两个事件都发生的概率就不能用单个事件的乘积来表示。两次抛掷硬币相互之间不影响,因此硬币正面朝上的概率可以用各次概率的乘积来表示。
似然函数通常用L表示。观察到抛硬币“6正4反”的事实,硬币参数θ取不同值时,似然函数表示为:
公式 2
公式2的图形如下图所示。从图中可以看出:参数θ为0.6时,似然函数最大,参数为其他值时,“6正4反”发生的概率都相对更小。在这个赌局中,我会猜测下次硬币为正,因为根据已有观察,硬币很可能以0.6的概率为正。
最大似然估计理解了似然函数的含义,就很容易理解最大似然估计的机制。似然函数是关于统计模型参数的函数,是描述观察到的真实数据在不同参数下发生的概率。最大似然估计要寻找最优参数,让似然函数最大化。或者说,使用最优参数时观测数据发生的概率最大。
欢迎关注我的头条或公号(ai-xingqiu),里面会介绍信号更多机器学习和人工智能相关内容。
mle定律?
摩尔定律是英特尔创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路上可以容纳的晶体管数目在大约每经过18个月便会增加一倍。换言之,处理器的性能每隔两年翻一倍。摩尔定律是内行人摩尔的经验之谈,汉译名为“定律”,但并非自然科学定律,它一定程度揭示了信息技术进步的速度。