受限玻尔兹曼机

受限波尔兹曼机(Restricted Blotzmann Machine,RBM)是一种可用随机神经网络(stochastic neural network)来解释的概率图模型(probabilistic graphical model)，由Smolensky在波尔兹曼机(Blotzmann Machine,BM)基础上提出，其输出只有激活与未激活两种状态，一般用1和0表示，具体取值依据概率统计法则决定。

基础知识

sigmoid函数

$sigmoid(x)=\\frac{1}{1+e^{-x}}$

Bayes定理

$P(A|B)=P(A)\\frac{P(B|A)}{P(B)}$
其中， $P(A)$ 称为先验概率(Prior probability)， $P(A|B)$ 称为后验概率(Posterior probability)。

二分图

$G=(V,E)$ 为一个无向图，其中顶点集 $V$ 可以分为两个互不相交的子集 $V_1$ 、 $V_2$ ，对于每条边上两个顶点分别属于这两个顶点集，则称为一个二分图。

MCMC方法

随机算法可分为Las Vegas算法与蒙特卡罗算法，其中Las Vegas算法总是精准返回一个正确答案或者返回无解，占用计算资源(CPU、内存等)随机，而蒙特卡罗算法具有随机大小的错误，可以通过花费更多计算资源来稳定减小这种误差。蒙特卡罗方法核心问题为如何从分布上随机采样，一般采用马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo, MCMC)产生指定分布下样本。

蒙特卡罗采样

有的时候需要通过采样的方式以较小的代价处理一些问题，比如采用小批量计算梯度，或者比如近似一个难以处理的求和或积分。
比如
$s=\\sum p(x)f(x)=E_p[f(x)]$
或者
$s=\\int p(x)f(x)dx=E_p[f(x)]$
此时，可通过计算
$\\hat{s}_n=\\frac{1}{n}\\sum\\limits_{i=1}\\limits^nf(x^{(i)})$
依据大数定律，若 $x^{(i)}$ 独立同分布，则其均值收敛于其期望值，即
$\\lim\\limits_{n\\to \\infty}\\hat{s}_n=s$
其方差
$Var[\\hat{s}_n]=\\frac{1}{n^2}\\sum\\limits_{i=1}\\limits^{n}Var[f(x)]=\\frac{Var[f(x)]}{n}$
由中心极限定理， $\\hat{s}_n$ 收敛到以 $s$ 为均值以 $\\frac{Var[f(x)]}{n}$ 为方差的正态分布，因此可用正态分布累积函数估计其置信区间。
补充：
[1]大数定律：样本量无穷大时，样本均值收敛于总体均值。（依概率收敛）
[2]中心极限定理：样本抽样分布接近于期望为u的正态分布。
[3]切比雪夫不等式：
$P\\{|X-\\mu|\\geq \\varepsilon\\}\\leq\\frac{\\sigma ^2}{\\varepsilon ^2}$

马尔科夫链

令 $X_t$ 表示随机变量 $X$ 在离散时间 $t$ 时刻的取值，若满足
$P(X_{t+1}=s_j|X_0=s_{i0},X_1=s_{i1},...,X_t=s_i)=P(X_{t+1}=s_j|X_t=s_i)$
则称该变量为马尔可夫变量，一段时间内变量 $X$ 的取值序列称为马尔可夫链。
$P_{i,j}=P(X_{t+1}=s_j|X_t=s_i)$ 称为转移概率， $\\pi ^{(t)}_k$ 表示该随机变量在时刻 $t$ 取值为 $s_k$ 的概率，则
$\\pi_i^{(t+1)}=\\sum\\limits_kP_{k,i}\\pi_k^{(t)}$