统计推断

Likelihood

似然函数:表示统计模型参数中似然性的(参数的)函数

  • $Y$:观测所得结果,事件 $Y$
  • $W$:模型参数
  • $\alpha$:正常量
  • 似然函数可以理解为 条件概率的逆反

    • 似然:在已知某些观测所得结果上,对有关事物性质的参数进行估计
      • 似然性:某个参数为特定值的可能性
      • 单独查看某个似然值无价值,要将各种似然值一起比较
    • 概率:在已知某些参数上,预测之后观测所得到结果
  • 形式上,似然函数也是条件概率函数,但关注统计模型中参数

    • 似然函数不满足归一性,乘正常数仍然是似然函数
    • 同一似然函数代表的模型中,某个参数具有多种可能,如果存在参数使得似然函数值最大,则该值为最合理的参数值
      • 假设不同模型(经验得到),选择不同的统计模型
      • 则有不同的概率密度(分布)函数,得到不同的似然函数

应用

  • 最大似然估计:选取似然函数,整理之后求最大值点

    • 实际中一般选取似然函数对数作为求解对象,结果同直接求似然函数最大值点
    • 似然函数最大值点不一定唯一,也不一定存在
    • 相较于矩估计
      • 精度较高,信息损失少
      • 计算量大
  • 似然比检验:利用似然函数检测假设、限制是否有效

    • 将加入某个限制的复杂某些的似然函数最大值和简单模型的似然函数最大值比较,检测某个参数限制是否正确
      • 若参数限制正确,则不应造成似然函数最大值的大幅变动
    • 尼曼-尼尔森引理 说明:似然比检验是所有具有同等显著性差异的检验中,最有统计效力的检验

条件概率分布似然函数

  • $P$:(所选择)统计模型的概率分布函数
  • $\tilde P$:$X,Y$ 的实际分布
  • $X,Y$:离散随机变量,$X$ 自变量观察值、$Y$ 因变量观察值
  • $W$:条件概率分布 $P$ 的参数
  • $N$,$N_{x,y}$:样本数量,取值为 $x,y$ 的样本数量
  • 这里是条件概率分布的似然函数,用 $(X,Y)$ 联合分布同样

    • 考虑 $W$ 是条件分布参数,与 $X$ 分布无关,有 $P(X|W) = P(X)$
    • 再考虑似然函数乘正常数不改变性质,则结果同上
  • 对数似然函数中,样本量 $N$ 可省略

常见分布

离散

连续

P-stable Distributions

p_stable distribution:随机变量 $\sum_i v_i X_i$ 、随机变量 $(\sum_i |v_i|^p)^{1/p} X$ 具有相同的分布

  • $v_1, v_2, \cdots, v_n$:任意实数
  • $X_1, X_2, \cdots, X_n$:独立同分布$D$随机变量
  • $X$:服从分布$D$随机变量
  • $\forall p \in (0, 2]$,稳定分布存在,但仅$p=1,2$时,有解析解

    • $p=1$:柯西分布

    • $p=2$:高斯分布

  • 可以从$[0,1]$上均匀分布获得稳定分布

    • 但是概率分布、密度函数没有解析解

性质、用途

  • 若向量 $a$ 中每个元素独立从 p-stable 分布中抽取,则 $|v|_p X = (\sum_i |v_i|^p)^{1/p} X$ 和 $$ 同分布
    • 可用较好计算的内积估计 $|v|_p$
    • 考虑到 $a(v_1 - v_2) = av_1 - av_2$,将内积和点之间 $L_p$ 范数距离 $|v_1 - v_2|_p$ 相联系

Exponential Family of Distributions

单变量指数分布概率密度/分布

  • $\eta(\theta)$:nutural parameter,自然参数
  • $h(x)$:underlying measure,底层观测值
  • $T(x)$:sufficient statistic,随机变量X的充分统计量
  • $A(\theta)$:log normalizer,对数规范化
  • $\eta(\theta), T(x)$:可以是向量,其内积仍为实数

  • $\eta(\theta) = \theta$时,称分布族为canonical形式

    • 总是能够定义$\eta = \eta(\theta)$转为此形式
  • 对数规范化$A(\theta)$使得概率密度函数满足积分为1

性质

  • 充分统计量$T(x)$可以使用固定几个值,从大量的独立同分布 数据中获取信息

    todo

Bernoulli分布

  • $h(x) = 1$
  • $T(x) = x$
  • $\eta = log \frac \theta {1 - \theta}$
  • $A(\theta) = ln(1+e^{\theta})$

Possion

  • $\theta = \lambda$
  • $h(x) = \frac 1 {x!}$
  • $\eta(\theta) = ln\lambda$
  • $T(x) = x$
  • $A(\theta) = \lambda$

Normal

  • $h(x) = \frac 1 {\sqrt{2\pi\sigma^2}} e^{-\frac {x^2} {2\sigma^2}}$
  • $T(x) = \frac x \sigma$
  • $A(\theta) = \frac {\mu^2} {2\sigma^2}$
  • $\eta(\theta) = \frac \mu \sigma$

概率不等式

Inequality

Azuma-Hoeffding Inequality

Azuma-Hoeffding 不等式:设 ${Xi:i=0,1,2,\cdots}$ 是鞅差序列,且 $|X_k - X{k-1}| < c_k$,则

Hoeffding Inequality

Hoeffding 不等式:考虑随机变量序列 $X_1, X_2, \cdots, X_N, X_i \in [a_i, b_i]$

  • 对随机变量 $\bar X = \frac 1 N \sum_{i=1}^N {X_i}$,对任意 $t>0$ 满足

  • 对随机变量 $SN = \sum{i=1}^N X_i$,对任意 $t>0$ 满足

  • 两不等式可用绝对值合并,但将不够精确

Bretagnolle-Huber-Carol Inequility

Bretagnolle-Huber-Carol 不等式:${X_i: i=1,2,\cdots,N} i.i.d. M(p1, p_2, \cdots, p_k)$ 服从类别为 $k$ 的多项分布

  • $N_i$:第 $i$ 类实际个数