MLE、MAP、Bayesian-E、naive Bayes

最大似然估计

最大似然估计是一种参数的估计的方法。通过最大化似然函数,求解此时的参数的值,它认为参数的是固定。模型估计中的最大似然估计:
已知数据 D={x1,x2,...,xn}D=\\{x_1, x2, ..., x_n\\}D={x1,x2,...,xn},来估计模型的参数θ\\thetaθ。利用极大似然估计的方法,我们先确定似然函数。
似然函数可以为已知数据发生的概率。我们通过对模型进行假设,最大化已知数据发生概率,来确定模型的参数值,表达式为:

argmaxθ p(Dθ)arg\\underset{\\theta}{max}\\ p(D|\\theta)argθmax p(Dθ)

一般通过假设样本之间相互独立,对似然函数取对数,令其导数为零来求得参数值。然后利用求得的参数进行预测。

贝叶斯估计

贝叶斯估计是一种对模型参数进行估计的方法。假设模型的参数服从一定分布,根据模型假设、贝叶斯公式、数据集求得模型参数的分布,预测时,求预测概率对于模型参数的期望作为最终结果。

贝叶斯公式:

P(AB)=P(BA)P(A)P(B)P(A|B)=\\frac{P(B|A)*P(A)}{P(B)}P(AB)=P(B)P(BA)P(A)

假设模型参数服从一定的分布,但具体参数未知,根据贝叶斯公式可得

p(θD)=p(Dθ)p(θ)p(D)p(\\theta|D)=\\frac{p(D|\\theta)p(\\theta)}{p(D)}p(θD)=p(D)p(Dθ)p(θ)

假设数据集中的样本相互独立,则

p(Dθ)=i=1Np(xiθ)p(D|\\theta) = \\prod_{i=1}^{N}p(x_i|\\theta)p(Dθ)=i=1Np(xiθ)

p(D)=θp(Dθ)p(θ)dθp(D)=\\int_\\theta p(D|\\theta)p(\\theta)d\\thetap(D)=θp(Dθ)p(θ)dθ

带入上上上式,得:

p(θD)=i=1Np(xiθp(θ)θ(i=1Np(xiθ))p(θ)dθp(\\theta|D)=\\frac{\\prod_{i=1}^{N}p(x_i|\\theta p(\\theta)}{\\int_\\theta (\\prod_{i=1}^{N}p(x_i|\\theta))p(\\theta)d\\theta}p(θD)=θ(i=1Np(xiθ))p(θ)dθi=1Np(xiθp(θ)

即求出模型参数θ\\thetaθ的概率分布。
当我们进行预测时候,即求p(x^D)p(\\hat{x}|D)p(x^D):

p(x^D)=θΘp(x^θ)p(θD)dθp(\\hat{x}|D)=\\int_{\\theta\\in\\Theta}p(\\hat{x}|\\theta)p(\\theta|D)d\\thetap(x^D)=θΘp(x^θ)p(θD)dθ

在使用贝叶斯估计方法对模型参数进行估计时,不仅考虑了似然函数的最大化,而且将数据的先验知识加入了计算,这样能够对模型的参数有一个更准确的估计。

最大后验概率估计

在贝叶斯估计中,我们需要求得模型参数的分布,利用此分布来对新的输入进行估计,但在实际应用过程中,贝叶斯估计的方法复杂度太高,因为我们需要求出模型参数的每一个可能的取值或者是表达式,再对其进行积分。这时候,我们可以将方法简化,不对关于θ\\thetaθ的表达式求期望,而是跟最大似然估计类似,求取一个表达式的最大值时的θ\\thetaθ值。虽然我们也将模型的参数视为符合一定分布的随机变量,但是这次我们只取随机分布上的一个点。根据贝叶斯公式:

p(θD)=p(Dθ)p(θ)p(D)p(\\theta|D)=\\frac{p(D|\\theta)p(\\theta)}{p(D)}p(θD)=p(D)p(Dθ)p(θ)

跟贝叶斯估计不同,这时候我们并不求出上式中θ\\thetaθ的具体分布,我们仅仅求出使上式取值最大的θ\\thetaθ的值,作为模型的估计参数。由于数据集已知并确定,所以分母p(D)确定,可以认为是常数,这时候我们只需要最大化分母p(Dθ)p(θ)p(D|\\theta)p(\\theta)p(Dθ)p(θ)即可。

argmaxθ p(Dθ)p(θ)arg \\underset{\\theta}{max}\\ p(D|\\theta)p(\\theta)argθmax p(Dθ)p(θ)

可以看出,最大后验估计(MAP)跟最大似然估计(MLE)非常类似,只是在表达式中多出了一项p(θ)p(\\theta)p(θ),此项表示模型参数的先验分布。将模型参数的先验知识考虑进来时,求解的参数的值能够更为客观,模型的准确度会更高。

朴素贝叶斯模型(naive bayes)

朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法,是一种监督学习的生成式学习方法。对于给定的数据集,首先假设特征条件独立,学习输入输出的联合概率分布;然后对于给定的的输入,利用贝叶斯公式求得后验概率最大的输出y。

设输入空间XRn\\mathcal{X}\\subseteq\\mathtt{R}^nXRn为n维向量的集合,输出空间标记为集合Y=c1,c2,...,ck\\mathcal{Y}={c_1, c_2, ..., c_k}Y=c1,c2,...,ck。输入特征向量xXx\\in\\mathcal{X}xX,输出类标记(class label) yYy\\in\\mathcal{Y}yY。X是定义在输入空间X\\mathcal{X}X的随机变量,Y是定义在输出空间Y\\mathcal{Y}Y上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集

T=(x1,y1),(x2,y2),...,(xN,yN)T={(x_1, y_1),(x_2, y_2),...,(x_N, y_N)}T=(x1,y1),(x2,y2),...,(xN,yN)

由P(X, Y)独立同分布产生。

先验概率分布为: P(Y=ck), k=1,2,...,KP(Y=c_k),\\ k=1,2,...,KP(Y=ck), k=1,2,...,K

条件概率分布为: P(X=xY=ck)=P(X(1)=x(1),...,X(n)=x(n)Y=ck), k=1,2,...,KP(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k), \\ k=1,2,...,KP(X=xY=ck)=P(X(1)=x(1),...,X(n)=x(n)Y=c

收藏 打印
您的足迹: