一、最大熵原理

最大熵原理认为,在没有更多信息的情况下,不确定的部分都是等可能的(均匀分布),此时概率分布的熵最大。

假设输入实例xRn\\bm x\\in\\R^nxRn,类别y{c1,c2, ,cK}y\\in\\{c_1, c_2, \\cdots, c_K\\}y{c1,c2,,cK},若使用判别式模型P(yx)P(y|\\bm x)P(yx)预测实例类别,在没有任何先验知识的情况下,认为实例x\\bm xx等可能属于各类别,即
P(c1x)=P(c2x)==P(cKx)=1/KP(c_1|\\bm x)=P(c_2|\\bm x)=\\cdots=P(c_K|\\bm x)=1/KP(c1x)=P(c2x)==P(cKx)=1/K

此时类别服从均匀分布,分布的熵最大。

例1
假设随机变量XXX取值集合X={A,B,C,D,E}\\mathcal X=\\{A, B, C, D, E\\}X={A,B,C,D,E},约束条件P(A)+P(B)=310P(A) + P(B)=\\dfrac{3}{10}P(A)+P(B)=103xXP(x)=1\\sum\\limits_{x\\in\\mathcal X}P(x)=1xXP(x)=1,估计各取值概率。
在缺少其他信息的情况下,认为AAABBB等概率,CCCDDDEEE等概率,因此
P(A)=P(B)=320P(C)=P(D)=P(E)=730\\begin{aligned} & P(A)=P(B)=\\frac{3}{20}\\\\ & P(C)=P(D)=P(E)=\\frac{7}{30}\\end{aligned}P(A)=P(B)=203P(C)=P(D)=P(E)=307

二、最大熵模型

分类判别模型P(YX)P(Y|X)P(YX),其中输入XXRnX\\in\\mathcal X\\subset R^nXXRn,输出YYY\\in \\mathcal YYY,学习目标是选择熵最大的模型P(YX)P(Y|X)P(YX)

特征函数
定义特征函数f(x,y)f(\\bm x, y)f(x,y)表示输入输出之间的某一事实,即
f(x,y)={1,xy0,f(\\bm x, y)=\\begin{cases} 1, &\\bm x与y满足某一事实\\\\ 0, &其他 \\end{cases}f(x,y)={1,0,xy

约束条件
给定训练集T={(x1,y1),(x2,y2), ,(xN,yN)}T=\\{(\\bm x_1, y_1), (\\bm x_2, y_2), \\cdots, (\\bm x_N, y_N)\\}T={(x1,y1),(x2,y2),,(xN,yN)},则可得联合分布P(X,Y)P(X, Y)P(X,Y)和边缘分布P(X)P(X)P(X)的经验分布
P~(X=x,Y=y)=ν(X=x,Y=y)N P~(X=x)=ν(X=x)N\\begin{aligned} & \\tilde P(X=\\bm x, Y=y)=\\frac{\\nu(X=\\bm x, Y=y)}{N}\\\\\\,\\\\ & \\tilde P(X=\\bm x)=\\frac{\\nu(X=\\bm x)}{N} \\end{aligned}P~(X=x,Y=y)=Nν(X=x,Y=y)P~(X=x)=Nν(X=x)

式中ν\\nuν表示对应样本出现的次数。

特征函数f(x,y)f(\\bm x, y)f(x,y)关于经验分布P~(X,Y)\\tilde P(X, Y)P~(X,Y)的期望
EP~(f)=x,yP~(x,y)f(x,y)E_{\\tilde P}(f)=\\sum_{\\bm x, y}\\tilde P(\\bm x, y)f(\\bm x, y)EP~(f)=x,yP~(x,y)f(x,y)

特征函数f(x,y)f(\\bm x, y)f(x,y)关于模型P(YX)P(Y|X)P(YX)与经验分布P~(X)\\tilde P(X)P~(X)的期望
EP(f)=x,yP~(x)P(yx)f(x,y)E_{P}(f)=\\sum_{\\bm x, y}\\tilde P(\\bm x)P(y|\\bm x)f(\\bm x, y)EP(f)=x,y

收藏 打印