机器学习（1）——概率图模型之隐马尔科夫模型

1、概念

在概率模型( probabilistic model )中，利用已知变量 “推断( inference )” 未知变量的条件分布。

假定未知变量为 $Y$ ，已知变量为 $X$ ，其他变量为 $R$ ，生成式模型考虑联合分布 $P(Y,R,X)$ ,判别式模型考虑条件分布 $P(Y,R|X)$ 。推断就是根据 $P(Y,R,X$ 或 $P(Y,R|X)$ 得到条件概率分布 $P(Y|X)$ 。

概率图模型( probabilistic graphical model ) 是一类用图表达变量相关关系的概率模型。一个节点表示一个或一组随机变量，节点之间的边表示变量间的概率相关关系。根据边的性质不同，概率图模型可以分为两种：第一类使用有向无环图表示变量之间的依赖关系，称为有向图模型或贝叶斯网( Bayesian network )；第二类是使用无向图表示变量之间的相关关系，成为无向图模型或马尔可夫网( Markov network )。

这里依赖关系是指函数关系，当一个或几个变量取一定值时，另一个变量有确定值与之对应。当变量X取某个值时，变量Y的取值可能有若干个，这些数值表现为一定的波动性，但总是围绕着它们的平均数，并遵循一定的规律变动。变量之间存在的这种不确定的数量关系称为相关关系。特点：Y与X的值不一一对应；Y与X的关系不能用函数式严格表达，但有规律可循。

区分相关关系与函数关系的依据全凭因变量取值的确定性：若因变量的取值是确定的、唯一的，则两个变量之间的关系称为函数关系；若因变量的取值是不确定的，则两个变量之间的关系称为相关关系。

2、隐马尔科夫模型

隐马尔科夫模型（HMM）是结构最简单的动态贝叶斯网，是一种著名的有向图模型。

马尔可夫链（Markov chain）：系统下一时刻的状态仅由当前状态决定，不依赖于以往的任何状态。

隐马尔科夫模型中，状态变量可分为两组。第一组为隐藏的状态变量 $y_t \\in \\left\\{ s_1,s_2,\\cdots,s_N \\right\\}$ ， $y_t$ 表示 $t$ 时刻的状态，共 $N$ 个状态，此状态变量为未知变量（也称为隐变量） $S$ 。第二组为可观测的状态变量， $x_t = \\left\\{ o_1,o_2,\\cdots,o_M \\right\\}$ , $x_t$ 表示 $t$ 时刻的观测状态，此状态变量为已知变量 $O$ 。

2.1、《机器学习》（周志华著）中的例子

$\"1\"$

观测值 $x_t \\in O$ 由 $y_t \\in S$ 决定，状态值 $y_t$ 由 $y_{t-1}$ 决定, $t$ 为时刻。箭头所指方向为状态可转变的方向（依赖关系）。

所有变量的联合概率分布如下：
$P(x_1,y_1,\\cdots,x_n,y_n) = P(y_1)P(x_1|y_1)\\prod_{t=2}^n P(y_t|y_{t-1})P(x_t|y_t)$
在等式1中， $P(x_t|x_1,y_1,\\cdots,x_{t-1},y_{t-1},y_t) = P(x_t|y_t)$ , $x_t$ 与其他变量无关，仅与 $y_t$ 有关。这里涉及马尔可夫模型的另一个假设，独立性假设：假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其它观测状态无关。欲求 $x_t$ ,只能先求与其相关的 $y_t$ 。
$P(x_t|y_1,\\cdots,y_t,x_1,\\cdots,x_{t-1}) = P(x_t|y_t)$
所以可以将 $(x_t,y_t)$ 看作一组变量 $s_t$ ，其联合概率分布为 $P(s_t) = P(y_t|y_{t-1})P(x_t|y_t)$ 。