| 一、最大熵原理 |
最大熵原理认为,在没有更多信息的情况下,不确定的部分都是等可能的(均匀分布),此时概率分布的熵最大。
假设输入实例x∈Rn,类别y∈{c1,c2,⋯,cK},若使用判别式模型P(y∣x)预测实例类别,在没有任何先验知识的情况下,认为实例x等可能属于各类别,即
P(c1∣x)=P(c2∣x)=⋯=P(cK∣x)=1/K
此时类别服从均匀分布,分布的熵最大。
例1
假设随机变量X取值集合X={A,B,C,D,E},约束条件P(A)+P(B)=103,x∈X∑P(x)=1,估计各取值概率。
在缺少其他信息的情况下,认为A与B等概率,C,D与E等概率,因此
P(A)=P(B)=203P(C)=P(D)=P(E)=307
| 二、最大熵模型 |
分类判别模型P(Y∣X),其中输入X∈X⊂Rn,输出Y∈Y,学习目标是选择熵最大的模型P(Y∣X)。
特征函数
定义特征函数f(x,y)表示输入输出之间的某一事实,即
f(x,y)={1,0,x与y满足某一事实其他
约束条件
给定训练集T={(x1,y1),(x2,y2),⋯,(xN,yN)},则可得联合分布P(X,Y)和边缘分布P(X)的经验分布
P~(X=x,Y=y)=Nν(X=x,Y=y)P~(X=x)=Nν(X=x)
式中ν表示对应样本出现的次数。
特征函数f(x,y)关于经验分布P~(X,Y)的期望
EP~(f)=x,y∑P~(x,y)f(x,y)
特征函数f(x,y)关于模型P(Y∣X)与经验分布P~(X)的期望
EP(f)=x,y∑
继续阅读与本文标签相同的文章
上一篇 :
MXC抹茶基金宣布战略投资区块链内容社区芥末圈
下一篇 :
最后一公里的自动驾驶:自动代客泊车要来了吗
-
2019 年度 “CCF 杰出会员” 公布,清华北大等86人当选
2026-05-18栏目: 教程
-
3步轻松搞定Spring Boot缓存
2026-05-18栏目: 教程
-
5G机皇已来 三星Galaxy Note10+5G正式登陆中国
2026-05-18栏目: 教程
-
威特动力:从“制造”到“智造”的跨越
2026-05-18栏目: 教程
-
Nreal携手运营商KDDI,共推日本MR生态建设
2026-05-18栏目: 教程
