统计量

统计量

统计量:统计理论中对数据进行分析、检验的变量

  • 传统的统计量具有显式解析表达式

    • 均值:数据之和除数量
    • 中位数:数据中间者
  • 统计量同样可以理解为和数据相关优化问题的解

    • 均值:离差平方和最小
    • 中位数:划分均匀
    • 优化问题目标本身也是统计量

统计量 - 衍生特征

Odds/Odds Ratio

  • Odds:几率/优势,事件发生与不发生的概率比值

    • $p$:事件发生概率
  • Odds Ratio:优势比,两组事件 odds 的比值

WOE

WOE 值:将预测变量(二分类场景中)集中度作为分类变量编码的数值

  • $\%B_i, \%G_i$:分类变量取第 $i$ 值时,预测变量为 B 类、G 类占所有 B 类、G 类比例
  • $#B_i, #B_T$:分类变量取第 $i$ 值时预测变量为 B 类数量,所有 B 类总数量
  • $#G_i, #G_T$:分类变量取第 $i$ 值时预测变量为 G 类数量,所有 G 类样本总数量
  • $odds_i$:分类变量取第 $i$ 值时,预测变量取 B 类优势
  • $odds_T$:所有样本中,预测变量取 B 类优势
  • 其中 $log$ 一般取自然对数
  • WOE 编码是有监督的编码方式,可以衡量分类变量各取值中

    • B 类占所有 B 类样本比例、G 类占所有 G 类样本比例的差异
    • B 类、G 类比例,与所有样本中 B 类、G 类比例的差异
  • WOE 编码值能体现分类变量取值的预测能力,变量各取值 WOE 值方差越大,变量预测能力越强

    • WOE 越大,表明该取值对应的取 B 类可能性越大
    • WOE 越小,表明该取值对应的取 G 类可能性越大
    • WOE 接近 0,表明该取值预测能力弱,对应取 B 类、G 类可能性相近

OR与WOE线性性

  • 即:预测变量对数优势值与 WOE 值呈线性函数关系

    • 预测变量在取 $i,j$ 值情况下,预测变量优势之差为取 $i,j$ 值的 WOE 值之差
    • WOE 值编码时,分类变量在不同取值间跳转时类似于线性回归中数值型变量

    woe_encoding_linear_sketch

  • 考虑到对数优势的数学形式,单变量 LR 模型中分类型变量 WOE 值可以类似数值型变量直接入模

    • 当然,WOE 值编码在多元 LR 中无法保证单变量分类情况下的线性
    • 或者说多变量 LR 中个变量系数值不一定为 1
    • 在基于单变量预测能力优秀在多变量场合也优秀的假设下,WOE 值编码(IV 值)等单变量分析依然有价值

Bayes FactorWOE 编码、多元 LR

  • $\frac {P(x_i|Y=1)} {P(x_i|Y=0)}$:贝叶斯因子,常用于贝叶斯假设检验
  • Naive Bayes 中满足各特征 $X$ 关于 $Y$ 条件独立的强假设下,第二个等式成立

  • Semi-Naive Bayes 中放宽各特征关于 $Y$ 条件独立假设,使用权重体现变量相关性,此时则可以得到多元 LR 的预测变量取值对数 OR 形式

    • 则多元 LR 场景中,WOE 值可以从非完全条件独立的贝叶斯因子角度理解

IV

  • $IV_i$:特征 $i$ 取值 IV
  • $IV$:特征总体 IV
  • 特征总体的 IV 值实际上是其各个取值 IV 值的加权和
    • 类似交叉熵为各取值概率的加权和

统计量 - 熵

Entropy

  • (信息)熵:在概率分布上对复杂程度/多样性/不确定性/混乱程度的度量
  • $p_d$:随机变量各取值对应概率
  • 事件 $i$ 发生概率 $p_d=0$:约定 $p_d log(p_d)$ 为 0
  • 其中 $log$ 以 2 为底,单位为 bit,以 $e$ 为底,单位为 nat
  • 信息论中,熵越高能传输越多信息

    • 可携带的信息量 = 单位消息熵 * 消息长度
    • 熵衡量系统复杂程度,提高系统确定性即削弱系统多样性,降低熵
  • 概率分布包含的信息即其复杂程度(可能取值数量)

    • 考虑按照 $(p_1,\cdots,p_D)$ 分布、长度为 $N$ 的随机变量序列,其可能排列数为 $\frac {N!} {\prod_d^D (p_d N)!}$
    • 则根据 Stirling 公式有

    • 则长度为 $N$ 的随机变量串的多样性、信息量为 $H * N$,其中 $H=\sum_d^D p_d log p_d$ 概率分布的信息熵

  • 某个事件包含的信息可以用编码长度理解

    • 对概率 $p$ 事件,编码 $1/p$ 个需编码(2进制编码)长度 $log_2 \frac 1 p$
    • 则概率 $p$ 事件包含信息量可以定义为 $log \frac 1 p$,即事件包含的信息量可用表示事件需要编码的长度表示 (底数则取决于编码元,只影响系数)
    • 则整个随机变量的信息为各事件信息量加权和
  • 熵可以视为变量取值概率的加权和

    • 只依赖随机变量 $X$ 的分布,与其取值无关,可将其记为 $H(P)$
    • 由定义 $0 \leq H(P) \leq log_2 k$
      • $H(p) = 0$:$\exists j, p_j=1$,随机变量只能取一个值,无不确定性
      • $H(p) = log k$:$\forall j, p_j=1/k$,随机变量在任意取值概率相等,不确定性最大

熵的性质

  • 对称性:事件取值不影响熵

  • 极值性

    • 所有符号有同等机会出现的情况下,熵达到极大(琴生不等式)

    • 仅有一个符号确定出现的情况下,熵达到极小 0

  • Continuity连续性:度量连续,概率微小变化只能引起熵微小变化

  • Normalization规范化:$H_2(\frac 1 2, \frac 1 2) = 1$

  • Grouping组合法则/可加和性:熵与过程如何划分无关 (此即要求熵形式为对数)

    • 若子系统间相互作用已知,则可以通过子系统熵值计算系统整体熵

      • $X_1,\cdots,X_K$:$K$ 个子系统,可以理解为将随机变量 $X$ 划分为 $K$ 种情况
      • $H(X_1,\cdots,X_K)$:子系统相互作用熵
      • 子系统相互作用熵可以认为是,通过已知信息消除的多样性(即信息增益)
      • 子系统熵之和则是利用已知信息消除多样性之后,系统剩余混乱程度
    • 一般的,两个事件 $X,Y$ 熵满足以下计算关系

    • 特别的,若事件 $X, Y$ 相互独立

  • 满足以上特性的熵定义必然为如下形式
$$
-K \sum P(x)log(P(x))
$$
  • 在热力学、信息论等领域,熵有多种不同定义,满足熵性质的测度泛函,只能具有(Shannon 熵和 Hartley 熵)或(von Neumann 熵和 Shannon 熵)线性组合的函数形式,若不要求满足组合法则,还有 Tsallis 熵等

Conditinal Entropy

条件熵:随机变量 $X$ 给定条件下,随机变量 $Y$ 的条件概率分布的熵对 $X$ 的数学期望

  • $P(X=xi, Y=y_j)=p{i,j}$:随机变量 $(X,Y)$ 联合概率分布
  • $p_i=P(X=x_i)$
  • $H(Y|X=x_i)$:后验熵
  • 特别的,考虑数据集 $D$ 被分为 $D_1,\cdots,D_m$,条件经验熵可计算如下

  • postorior entropy:后验熵,随机变量 $X$ 给定条件下,随机变量 $Y$ 的条件概率分布的熵
  • empirical conditional entropy:经验条件熵,概率由数据估计

Infomation Gain/Mutual Infomation

互信息/信息增益:(经验)熵与(经验)条件熵之差

  • 与数据集具体分布有关、与具体取值无关

    • 绝对大小同易受熵影响,(经验)熵较大时,互信息也相对较大
    • 由于误差存在,分类取值数目较多者信息增益较大
  • 可衡量变量 $X$ 对 $Y$ 预测能力、减少不确定性的能力

    • 信息增益越大,变量之间相关性越强,自变量预测因变量能力越强
    • 只能考察特征对整个系统的贡献,无法具体到特征某个取值
    • 只适合作全局特征选择,即所有类使用相同的特征集合

Infomation Gain Ratio

信息增益比:信息增益对原始信息熵的比值

  • 考虑熵大小,减弱熵绝对大小的影响

Cross Entropy

  • 信息论:基于相同事件测度的两个概率分布 $P, Q$,基于非自然(相较于真实分布 $P$)概率分布 $Q$ 进行编码,在事件集合中唯一标识事件所需 bit
  • 概率论:概率分布 $P, Q$ 之间差异
  • $P(x), Q(x)$:概率分布(密度)函数
  • $r(x)$:测度,通常是 $Borel \sigma$ 代数上的勒贝格测度
  • $D_{KL}(P||Q)$:$P$ 到 $Q$ 的 KL 散度($P$ 相对于 $Q$ 的相对熵)
  • 信息论中,交叉熵可以看作是信息片段在错误分布 $Q$ 分布下的期望编码长度
    • 信息实际分布实际为 $P$,所以期望基于 $P$
  • 交叉熵是常用的损失函数:效果等价于 KL 散度,但计算方便
  • sigmoid 激活函数时:相较于二次损失,收敛速度更快

Entropy 衍生指标

Kullback-Leibler Divergence

KL 散度/相对熵:衡量概率分布 $P, Q$ 之间差异的量化指标

  • KL 散度含义

    • 原始分布 $P$、近似分布 $Q$ 之间对数差值期望
    • 若使用观察分布 $Q$ 描述真实分布 $P$,还需的额外信息量
  • KL 散度不对称,分布 $P$ 度量 $Q$、$Q$ 度量 $P$ 损失信息不同

    • 从计算公式也可以看出
    • KL散度不能作为不同分布之间距离的度量

Population Stability Index

PSI:衡量分布 $P, Q$ 之间的差异程度

  • KL 散度的对称操作
    • 更全面的描述两个分布的差异

Gini 指数

基尼指数:可视为信息熵的近似替代

  • $p$:概率分布
  • 异质性最小:Gini 系数为 0
  • 异质性最大:Gini 系数为 $1 - \frac 1 k$
  • Gini 指数度量分布的不纯度
    • 包含类别越多,Gini 指数越大
    • 分布越均匀,Gini 指数越大
  • 熵较 Gini 指数对不纯度判罚更重

gini_entropy_error_rate_in_binary_classification

  • 经济学领域的 Gini 系数更类似 AUC

Entropy 关系

  • Gini 指数可以视为是熵在 1 附近的一阶泰勒展开近似

条件 Gini 指数

  • 性质类似信息增益

统计量 - 相关

Pearson 积矩相关系数

  • $cov(X, Y)$:变量 $X, Y$ 协方差
  • $\sigma_X, \sigma_Y$:变量 $X, Y$ 方差
  • Pearson 积矩相关系数取值范围为 $[-1, 1]$
    • $1, -1$ 分别表示变量成正线性、负线性函数关系

显著性检验

Fisher 变换

  • $z$:Pearson 积矩相关系数的 Fisher 变换
  • $r$:样本的 Pearson 积矩相关系数值
  • 当 $(X, Y)$ 为二元正态分布时,$z$ 近似正态分布
    • 均值:$\frac 1 2 ln(\frac {1+\rho} {1-\rho})$
    • 标准差:$\frac 1 {\sqrt {N - 3}}$

基于数学的近似方法

  • 当 $(X, Y)$ 为二元正态分布且不相关时,$t$ 服从自由度为 $n-2$的 t-分布

Spearman 秩相关系数

  • $Rank(X), Rank(Y)$:变量 $X, Y$ 的秩(应同序)(相同值秩取均值)
  • $d_i$:变量对 $X, Y$ 中,二者秩差值
  • Spearman 秩相关系数被定义为变量秩的 Pearson 相关系数
  • Spearman 秩相关系数也可以使用 Fisher 变换检验显著性

Kendell 秩相关系数

  • $N_0 = \frac {N(N-1)} 2$:变量对数量
  • $N_c, N_d$:变量对 $X, Y$ 中有序对数量、无序对数量
  • $N_X, N_Y$:变量对 $X, Y$ 中 $X$ 取值、$Y$ 取值相同对数量
  • $M$:变量 $X, Y$ 中较小取值数量者取值数量
  • Kendell 秩相关系数取值范围同样为 $[-1, 1]$

    • -1 仅在变量 $X, Y$ 取值完全反向取到
  • $\tau_a$ 是 $\tau_b$ 在变量不存在取值相同时的特例

  • $\tau_c$ 适合“层级”数据,即两个变量取值类似划分、内部细分

    ||A|B|C| |——-|——-|——-|——-| |I-1|30|0|0| |I-2|30|0|0| |II-1|0|30|0| |II-1|0|30|0| |III-2|0|0|30| |III-2|0|0|30|

    • 对以上数据,$\tau_b$ 取值在 0.9 附近,而 $\tau_c$ 取 1
  • 有序对:对 $(X_i, Y_i), (X_j, Y_j)$,满足 $X_i < X_j, Y_i < Y_j$ 或 $X_i > X_j,Y_i > Y_j$ 则为有序对
  • 无序对:对$(X_i, Y_i), (X_j, Y_j)$,满足 $X_i < X_j, Y_i > Y_j$ 或 $X_i > X_j, Y_i < Y_j$ 则为无序对

卡方统计量

卡方统计量:通过观察实际与理论值的偏差确定理论正确与否

  • $A$:自变量、因变量组合对应频数观察值
  • $E$:自变量、因变量组合对应频数期望值
  • 将模型预测结果视为实际分布、先验分布(均匀分布)视为理论分布

  • 卡方检验:检验定性变量之间相关性,假设两个变量确实独立,观察实际值、理论值偏差程度判断变量之间相关性

    • 若偏差足够小,认为误差是自然的样本误差,两者确实独立
    • 若偏差大到一定程度,误差不可能由偶然、测量精度导致, 认为两者相关
  • 若模型预测结果同先验分布差别很大,说明模型有效,且卡方统计量值越大表示预测把握越大

特点

  • 由于随机误差存在,卡方统计量容易
    • 夸大频数较小的特征影响
    • 相应的,取值数较少(各取值频数相对而言可能较大)特征影响容易被低估

分布证明

  • 考虑随机变量 $X=(x_1,\cdots,x_D)$ 服从 Multinomial 分布,分布参数为 $n, p=(p_1,\cdots,p_D)$

  • 考虑服从理论分布的随机变量 $X$ 协方差矩阵

  • 则由中心极限定理有,如下依分布收敛的结论

  • 考虑服从理论分布的随机变量 $X$ 的 $\chi^2$ 参数

  • 并由连续映射定理可以得到 $D\frac {x-np} {\sqrt n}$ 分布,且其协方差矩阵 $\Sigma_0$ 满足

  • 由以上,$\Sigma_0$ 仅有特征值 0,1

    • 特征值 0 对应特征向量有且仅有 $\sqrt p$
    • 特征值 1 对应特征向量有 $D-1$ 个
  • 则 $\chi^2$ 统计量依分布收敛于自由度为 $D-1$ 的卡方分布

  • 可据此构造统计量进行卡方检验,检验实际值实际分布频率 $(a_1,\cdots,a_D)$ 是否符合该分布

    • 构造卡方统计量 $\chi^2 = \sum_{d=1}^D \frac {(x_d - na_d)^2} {na_d}$
    • 则卡方统计量在随机变量满足多项分布情况下依分布收敛于自由度为 $D-1$ 的卡方分布

常用统计量

混淆矩阵

  • 对比实际类别值、预测类别值,编制混淆矩阵
  • 基于混淆矩阵,计算各类错判率、总错判率(总错判率会受到数据不平衡性的影响)
真实情况\预测结果 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

confusion_matrix

F-Measure

F-测度:准率率和召回率综合值,越大越好

  • $P = \frac {TP} {TP+FP}$:查准率、精确率
  • $R = \frac {TP} {TP+FN}$:查全率、召回率、覆盖率

F1

F1值:$\beta=1$ 时的 F测度

TPRFPR

  • TPRFPR 可视为对 TPFP 用样本数量归一化的结果

    • 样本全体中正、负样本数量往往差距很大,直接比较 TPFP 不合理
    • 考虑使用样本正、负数量归一化,即计算正比例 TPR、负比例 FPR
  • TPR 越高越好,FPR 越低越好,但是这两个指标相互制约,两者同时增加、减小

    • 模型倾向于将样本 判定为 为正例,则 TPFP 同时增加,TPRFPR 同时变大
    • 即模型取不同阈值,会产生正相关的 TPRFPR 的点列

Recevier Operating Characteristic Curve

ROC 曲线:不同 正样本概率 划分阈值下 TPRFPR 绘制的折线/曲线

  • ROC 曲线即以 FPR 为横坐标、TPR 为正坐标绘制曲线

    • FPR 接近 1 时,TPR 也接近 1,这是不可避免的
    • FPR 接近 0 时,TPR 越大越好
    • 所以模型 ROC 曲线下方面积越大,模型判断正确效果越好
  • 理解

    • 将正负样本的正样本概率值分别绘制在 x=1x=-1 两条直线上
    • 阈值即为 y=threshold 直线
    • TPRFPR 则为 x=1x=-1 两条直线在阈值直线上方点数量,与各直线上所有点数量比值

Accuracy

准确率、误分率:评价分类器性能一般指标

  • $y_i$:第 $i$ 样本实际类别
  • $\hat y_i$:第 $i$ 样本预测类别
  • $N$:样本数量
  • 对给定测试集,分类器正确分类样本数与总样本数比值
  • 0-1 损失函数时经验风险

Top PR

头部准召:评估模型头部性能

  • $TOP$:指定的头部数量
  • $TP_{top}$:头部中正例数量(正例指已知原 $TOP$ 样本)

Area Under Curve

AUC 值:ROC 曲线下方面积,越大越好

  • AUC 值实际含义:随机抽取一对正、负样本,对其中正样本的正样本预测概率值、大于负样本的正样本预测概率值的概率

    • $=1$:完美预测,存在一个阈值可以让模型 TPR 为 1,FPR 为 0
    • $(0.5, 1)$ :优于随机预测,至少存在某个阈值,模型 $TPR > FPR$
    • $=0.5$:同随机预测,无价值
    • $[0, 0.5)$:差于随机预测,但是可以反向取预测值

AUC 计算

  • 绘制 ROC 曲线,计算曲线下面积

    • 给定一系列阈值(最精确时为样本数量),分别计算 TPRFPR
    • 根据 TPRFPR 计算 AUC
  • 正负样本分别配对,计算正样本预测概率大于负样本比例

    • $M, N$:正、负样本数量
  • Mann-Witney U 检验:即正、负样本分别配对的简化公式

    • $Pos$:正样本集合
    • $rank(i)$:样本 $i$ 的按正样本概率排序的秩(对正样本概率值相同样本,应将秩加和求平均保证其秩相等)

Weighted-AUC

WAUC:给 每个样本 赋权,计算统计量时考虑样本权重

  • FPRTPR 绘图

    • $WTPR, WFPR$:加权 TPR、加权 FPR
    • $\hat y_i$:样本预测类别
    • $w_i$:样本权重
  • Mann-Witney U 检验:考虑其意义,带入权重即可得

    • $rank_{pos}(i)$:正样本内部排序,样本$i$秩
    • $Neg$:负样本集合

多分类 AUC

  • Micro-AUC:将每个类别视为样本标签,计算全体样本的正标签、负标签的 AUC

    • $n$ 个样本的 $m$ 维标签展平, 则其中有 $n$ 个正样本、$n * (m-1)$ 个负样本
    • $n$ 个样本的 $m$ 个分类器共 $n * m$ 个得分展平
    • 使用以上预测得分、标签计算 AUC
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    # one-vs-rest分类器得分
    y_score = classifer.transform(X_test)
    # 展平后计算fpr、tpr
    fpr_micro, tpr_micro, threshhold_micro = \
    skilearn.metrics.roc_curve(y_test.ravel(), y_score.ravel())
    # 利用fpr、tpr计算auc
    auc_micro = skilearn.metrics.auc(fpr_micro, tpr_micro)

    # 等价于直接调用
    auc_micro = skilearn.metrics.roc_auc_score(y_test, y_score, average="micro")
  • Macro-AUC:对各类别,分别以计算 ROC 曲线(即 TPRFPR),计算平均 ROC 曲线得到 AUC

    • 对各类别分别计算 TPRFPR,共 $m$ 组 TPRFPR
    • 平均合并 TPRFPR,计算 AUC

      • 方法1:合并 FPR、去除重复值,使用 $m$ 组 TPRFPR 分别求合并后 FPR 插值

        1
        2
        3
        4
        5
        6
        7
        8
        9
        10
        11
        12
        13
        14
        15
        16
        # 分别计算各类别fpr、tpr
        fprs, tprs = [0] * n_classes, [0] * n_classes
        for idx in range(n_classes):
        fprs[idx], tprs[idx], _ = sklearn.metrics.ruc_curve(
        y_test[:, i], y_score[:, i])
        # 合并fpr
        all_fpr = np.unique(np.concatenate(fprs))
        mean_tpr = np.zeros_like(all_fpr)
        # 计算合并后fpr插值
        for idx in range(n_classes):
        mean_tpr += scipy.interp(all_fpr, fpr[idx], tpr[idx])
        mean_tpr /= n_classes
        auc_macro = sklearn.metrics.auc(all_fpr, mean_tpr)

        # 但是和以下结果不同
        auc_macro = sklearn.metrics.roc_auc_score(fprs)
  • 以上分类器均为 one-vs-rest 分类器,$m$ 个类别则 $m$ 个分类器、每个样本 $m$ 个得分

Kolmogorov-Smirnov 统计量

KS 值:刻画区分正负样本能力

  • KS 值体现 最理想情况 下,对正负样本区分能力
    • ROC 曲线与 $TPR = FPR$ 直线的最远距离

Squared Error

Mean Squared Error

MSE:均方误差(偏差)

Mean Absolute Error

MAE:平均绝对误差

Mean Absolute Percentage Error

MAPE:平均绝对百分比误差

Symmetric Mean Absolute Percentage Error

SMAPE:对称平均绝对百分比误差

$R^2$

  • $n, p$:样本量、特征数量
  • $SSE$:残差平方和
  • $SSR$:回归平方和、组内平方和
  • $SST$:离差平方和
  • $R^2_{adj}$:调整的$R^2$

Akaike Information Criterion

AIC :赤池信息准则

  • $n, p$:样本量、特征数量
  • $\theta$:带估参数
  • $L(\theta, x)$:似然函数
  • $SSE$:残差平方和

Bayesian Information Criterion

BIC:贝叶斯信息准则

$C_p$

  • $p$:选模型特征子集中特征数量
  • $m$:所有特征数量
  • $SSE_p$:选模型中残差平方和
  • $SSE_m$:全模型中残差平方和

确定性时序分析

Time Series Decomposition

  • 因素分解方法:克服其他因素干扰,单纯测度某个确定性因素(季节、趋势、交易日)的序列的影响
  • 指数平滑预测方法:根据序列呈现的确定性特征,选择适当的方法对序列进行综合预测

因素分解模型

  • 因素分解模型思想

    • 所有序列波动可以归纳为受到以下 4 种因素影响(全部或部分)
    • 导致序列呈现不同的波动特征,即任何时间序列可以用 4 因素的某个函数进行拟合 $x_t = f(T_t, C_t, S_t, I_t)$
  • Trend:序列呈现的长期递增、递减的变化趋势

  • Circle:序列呈现的从高到低、在由低到高的反复循环波动

    • 很多经济、社会现象确实有循环周期,但是这个周期往往很长、长度不固定
    • 如何观测值序列不够长,没有包含多个周期,周期的一部分会和趋势重合,无法准确、完整地提取周期影响
    • 在经济学领域常用的周期有
      • 基钦周期:平均 40 个月
      • 朱格拉周期:平均 10 年
      • 库兹涅茨周期:平均 20 年
      • 康德拉季耶夫周期:平均 53.3 年
  • Season:和季节变化相关的稳定周期波动

  • Immediate:其他不能用确定性因素解释的序列波动

常用模型(函数)

  • 加法模型:$x_t = T_t + C_t + S_t + I_t$
  • 乘法模型:$x_t = T_t C_t S_t * I_t$
  • 伪加法模型:$x_t = T_t * (S_t + D_t + I_s)$
  • 对数加法模型:$log{x_t} = log{Tt} + log{St} + log{Dt} + log{I_t}$

考虑节假日

  • 有些社会、经济现象显示某些 特殊日期 是很显著的影响因素,但是在传统因素分解模型中,没有被纳入研究

    • 股票交易受交易日影响
    • 超市销售受周末、节假日影响
    • 交通、运输、旅游同样受到周末、节假日影响
  • 如果观察时期不足够长,考虑将模型中 Circle(周期) 改为 Day(节假日)

Exponential Smoothing

  • 根据序列是否具有长期趋势、季节效应,可以把序列分为3大类
    • 既没有长期趋势、又没有季节效应
    • 只有长期趋势、没有季节效应
    • 有季节效应,无论是否有长期趋势

简单指数平滑

简单移动平均

  • 对无趋势、季节的水平平稳序列
    • 可以认为序列在比较短时间内,序列取值比较稳定,序列值差异主要是随机波动造成
    • 根据此假定,可以使用最近一段时间内平均值作为未来几期预测值
  • 简单移动平均假定无论时间远近,近 $n$ 期的序列观测值影响力一样

简单指数平滑预测

  • 实务中,对一般的随机事件,近期的结果对现在的影响更大
  • 指数平滑法构造思想
    • 考虑到事件间隔对事件发展的影响,各期权重随时间间隔增大而指数衰减
  • 初值:很多方法可以确定,最简单指定 $\hat x_1 = x_1$
  • 平滑系数 $\alpha$
    • 经验值在 $[0.05, 0.3]$,
      • 对于变化较缓慢的序列,取较小值
      • 对于变化迅速的序列,取较大值
    • 如果 $\alpha$ 过大,说明序列波动性过强,不适合使用简单指数平滑
  • 理论上可以预测任意期值,但是任意期预测值都是常数
    • 因为没有新的观测值提供新信息

Holt 两参数指数平滑

  • 两参数指数平滑
    • 适合对含有线性趋势的序列进行修匀
    • 即分别用指数平滑的方法,结合序列最新观察值,不断修匀参数 $a, b$ 的估计值
  • $a(t-1) = x{t-1} - \epsilon{t-1}$
  • $b(t) = b + \epsilon_t$
  • 两参数递推公式

  • 序列预测公式

  • 初值设置

    • $\hat a(0)=x_1$
    • $\hat b(0)=\frac {x_{n+1} - x_1} n$

Holt-Winter 三参数指数平滑

  • 三参数指数平滑
    • Holt 指数平滑的基础上构造,以修匀季节效应

加法模型

  • 模型表达式

    • $a(t-1) = x{t-1} - c{t-1} - \epsilon_{t-1}$
    • $b(t) = b + \epsilon_t$
    • $c_t = Sd_t + e_t, e_t \sim N(0, \sigma_e^2)$
  • 三参数递推式

  • 序列预测公式

乘法模型

  • 模型表示式

    • $a(t-1) = x{t-1}/c{t-1} - \epsilon_{t-1}$
    • $b(t) = b + \epsilon_t$
    • $c_t = S_j + e_t, e_t \sim N(0, \sigma_e^2)$
  • 三参数递推式

  • 序列预测公式

协整与误差修正模型

Spurious Regression

  • 多变量分析中,平稳性非常重要,忽略序列平稳性判断,容易出现伪回归现象

  • GrangerNewbold 的非平稳序列的伪回归随机模型实验(两个独立随机游走模型)表明

    • 非平稳场合,参数显著性检验犯弃真错误的概率远大于 $\alpha$,伪回归显著成立
    • 即 $P(|t| \geqslant t_{\alpha/2}(n) | 非平稳序列) \leqslant \alpha$

Cointegration 协整关系

  • ${x_1}, {x_2}, \cdots, {x_k}$:自变量序列
  • $y_t$:响应变量序列
  • ${\epsilon_t}$:平稳回归残差序列

协整检验

  • 假设条件

    • $H_0: \epsilon_t ~ I(k), k \geqslant 1$:多元非平稳序列之间不存在协整关系
    • $H_1: \epsilon_t ~ I(0)$:多元非平稳序列之间存在协整关系
  • 建立响应序列与输入序列之间的回归模型

  • 对回归残差序列进行 EG 平稳性检验

Error Correction Model

ECM:误差修正模型,解释序列短期波动关系

  • Granger 证明协整模型、误差修正模型具有 1-1 对应关系
    • 协整模型度量序列之间长期均衡关系
  • 实务中,响应序列与解释序列很少处于均衡点上,实际观测的是序列间短期或非均衡关系

Granger 表述定理

  • 如果变量 $X$、$Y$ 是协整的,则他们之间的短期非均衡关系总能用一个误差修正模型表述 $$
      \Delta Y_t = lagged(\Delta Y, \Delta X) - \lambda ECM_{t-1} + \epsilon_t
    
    $$
  • 对关系 $y_t = \beta x_t + \epsilon_t$

  • 响应序列当期波动 $\Delta y_t$ 主要受到三方面短期波动影响

    • $\Delta x_t$:输出序列当前波动
    • $ECM_{t-1}$:上一期误差
    • $\epsilon_t$:纯随机波动

误差修正模型

  • $\beta_1 < 0$:表示负反馈机制
    • $ECM_{t-1} > 0$:正向误差,则会导致下一期值负向变化
    • $ECM_{t-1} < 0$:负向误差,则会导致下一期值正向变化

Granger 因果关系

  • 因果关系:原因导致结果

    • 时间角度:原因发生在前,结果发生在后
    • 影响效果:$X$ 事件发生在前,且对 $Y$ 事件发展结果有意义
  • Granger 检验可检验统计学意义上的 Granger 因果关系

    • 统计意义上的因果关系和现实意义上因果关系不同
    • 现实意义上变量因果关系强调逻辑自洽

Granger 因果关系

  • 序列 $X$ 是序列 $Y$ 的 Granger 原因,当且仅当最优线性预测函数使得下式成立 $$

      \theta^2(y_{t+1}|I_t) \leq \theta^2(y_{t+1}|I_t-X_t)
    

    $$

  • $It = { x_t, x{t-1}, \cdots, yt, y{t-1}, \cdots }$:$t$ 时刻所有有用信息集合

  • $Xt = { x_t, x{t-1}, \cdots }$:t时刻所有序列信息集合
  • $\theta^2(y_{t+1}|I_t)$:使用所有可获得历史信息 (包括 ${x}$ 序列历史信息)得到的一期预测值方差
  • $\theta^2(y_{t+1}|I_t-X_t)$:从所有信息中刻意扣除 ${x}$ 序列历史信息得到的一期预测值方差
  • Granger 因果关系分类
    • $(x, y)$:相互独立
    • $(x \leftarrow y)$:$x$ 是 $y$ 的 Granger 原因
    • $(x \rightarrow y)$:$y$ 是 $x$ 的 Granger 原因
    • $(x \leftrightarrow y)$:互为因果

Granger 因果检验

  • 建立回归方程

    • $z_t$:其他解释变量集合
    • $\epsilon_t \sim I(0)$
  • 假设

    • $H_0: \alpha_1 = \alpha_2 = \cdots = \alpha_m = 0$
    • $H_1: \alpha_i 不全为0$
  • 检验统计量:F统计量

Granger 因果检验说明

  • Granger 因果检验思想:对响应变量预测精度有显著提高的自变量,就视为响应变量的因

    • 因果性可以推出预测精度提高,但预测精度提高不能等价推出因果性
    • 即使检验结果显著拒绝原假设,也不能说明两个序列之间有真正因果关系
  • Granger 因果检验是处理复杂变量关系时的工具

    • 借助因果检验信息,可以帮助思考模型结果
    • 不一定准确,但是提供信息比完全没有信息好
  • Granger 因果结果说明

    • 检验结果严重依赖解释变量的延迟阶数,不同延迟阶数可能会得到不同的检验结果
    • 检验结果会受到样本随机性影响,样本容量越小随机性越大,所以最好在样本容量比较大时进行检验

统计检验

JJ 检验

检验思想

  • JJ 检验:检验 $VAR(k)$ 模型的协整关系
    • 参考多元分析中典型相关分析的构造思想
  • $Yt = (y{1,t}, y{2,t}, \cdots, y{N,t})^T \sim I(1)$
  • $\Pi = \sum_{i=1}^k \Pi_i - I$
  • $\Gammai = -\sum{j=i+1}^k$
  • 基础协整关系 = $\Pi$ 非零特征根数量
    • 基础协整关系的任意线性组合依然是协整的
    • 系统中协整关系至少为非零特征根数量

检验方法

  • 假设 $\lambda_1 \geq \lambda_2 \geq \cdots \lambda_m$ 是 $\Pi$ 的所有特征根

最大特征根检验

  • 检验统计量:Bartlette 统计量 $Q = -Tln(1-\lambda_i^2)$

  • 假设

    • 原假设:$H_0: \lambda_i = 0$
  • 检验流程

    • 从 $\lambda_1$ 开始检验是否显著不为 0
    • 直到某个 $\lambda_k$ 非显著不为0,则系统有 $k-1$ 个协整关系

迹检验

  • 检验统计量:Bartlette 统计量 $Q = -T \sum_{j=i}^m ln(1-\lambda_j^2)$

  • 假设

    • 原假设:$H0: \sum{j=i}^m \lambda_j = 0$
  • 检验流程

    • 从 $\sum_{j=1}^m \lambda_j = 0$ 开始检验是否显著不为 0
    • 直到某个 $\sum_{j=k}^m ln(1-\lambda_j^2)$ 非显著不为 0,说明系统存在$k-1$个协整关系

时间序列分析

时间序列分析

  • 时间序列数据:在不同时间点收集到的数据,反映某事物、现象随实际变化状态、程度

  • 描述性时序分析:通过直观的数据比较、绘图观测,寻找序列中蕴含的发展规律

    • 操作简单、直观有效,是时序分析的第一步
    • 但是只能展示非常明显的规律性
    • 最早的时序分析方法,所有时序分析的基础
    • 帮助人们找到自然规律
      • 尼罗河的泛滥
      • 范蠡稳定粮价
      • 小麦价格指数序列
      • 太阳黑子运动规律
  • 确定性时序分析:根据序列的观察特征,先构想一个序列运行的理论,默认序列按照此理论确定性运作

    • 侧重于确定性信息的提取
    • 通常不能通过分析误差自行修正模型,只能通过新的模型假定, 推翻旧模型实现分析方法的改进
    • 假定条件决定了序列的拟合精度,如果确定性的假定条件不对, 误差将很大,因此限制其使用范围

时域分析

确定性时域分析

  • 原理:事件的发展通常具有一定的惯性,用统计语言描述就是序列值之间存在一定的相关关系,即某种统计规律

  • 目的:寻找序列值之间的相关关系的统计规律,并拟合适当数学模型描述,进而用于预测

  • 特点

    • 理论基础扎实
    • 操作步骤规范
    • 分析结果易于解释

常用领域

  • 宏观经济领域的 Time Series Decomposition

  • 确定性趋势预测

    • 趋势预测:线性趋势预测、非线性趋势预测
    • 指数平滑预测:简单、两参、三参指数平滑

随机性时域分析

  • 原理:假设序列为随机变量序列,利用对随机变量分析方法研究序列

  • 特点

    • 预测精度更高
    • 分析结果可解释性差
    • 是目前时域分析的主流方法

频域分析

  • 思想:假设任何一种无趋势的实现序列,都可以分解成若干不同频率的周期波动(借助傅里叶变换,用三角函数逼近)

时域分析发展

启蒙阶段

  • AR 模型:George Undy Yule
  • MA 模型、Yule-Walker 方程:Sir Gilbert Thomas Walker

核心阶段

  • ARIMA:经典时间序列分析方法,是时域分析的核心内容
    • Box & Jenkins 书中系统的阐述了ARIMA模型的识别、估计、检验、预测原理和方法

完善阶段

  • 异方差场合

    • ARCHRobert Fry Engle
    • GARCHBollerslov
    • GARCH 衍生模型
      • EGARH
      • IGARCH
      • GARCH-M
      • NGARCH
      • QGARCH
      • TGARCH
  • 多变量场合

    • ARIMAXBox & Jenkins
    • Co-intergration and error correction modelC.Granger,协整理论
    • SYSLINKlein,宏观经济连理方程组模型
    • Vector Autoregressive ModelSims,货币政策及其影响
  • 非线性场合

    • Threshold Autoregressive Model
    • Artificical Neural Network
    • Hebbian Learning:神经可塑性假说
    • Multivariate Adaptive Regression Splines
    • Linear Classifier
    • Support Vector Machines

Vector Auto-regression Model

Vector Auto-regression Model

VAR 模型:向量自回归模型

  • 模型特点

    • 不以经济理论为基础
    • 结构简介明了
    • 预测精度高
  • 模型方程特点

    • 采用多方程联立的形式
    • 需要估计 $m(mp+1)$ 个参数的,对样本数量要求高
    • 模型的每个方程中,内生变量 对模型的全部内生变量滞后项进行回归,估计全部内生变量的动态关系
  • 模型用途

    • 脉冲响应分析
    • 方差分解

VAR 模型参数

  • VAR 模型系数由统计相关性估计

    • 不具有逻辑上的因果关系
    • 通常不直接解读 VAR 模型每个方程的经济学意义
  • VAR 模型参数不进行参数显著性检验,但是允许研究人员对参数施加特殊约束

  • VAR 模型通常是由一系列 非平稳序列构造的平稳系统

    • 所以若包含非平稳变量,其中至少存在 1 个协整关系
    • 协整关系具有经济学意义,可以解读系数(所以需要进行协整检验)

VAR模型形式

两变量 VAR(1)

  • 方程组形式

  • 矩阵形式

  • $u{1,t}, u{2,t} \overset {i.i.d.} {\sim} (0, \theta^2)$:随机波动项,$Cov(u{1,t}, u{2,t}) = 0$

多变量的 VAR(k)(含外生变量)

  • $Yt = (y{1,t}, y{2,t}, \cdots, y{N,t})^T$:内生变量
  • $C = (c_1, c_2, \cdots, c_N)^T$:常数项
  • $\Pi_j = \begin{bmatrix}
      \pi_{11,j} & \pi_{12,j} & \cdots & \pi_{1N,j} \\
      \pi_{21,j} & \pi_{22,j} & \cdots & \pi_{2N,j} \\
      \vdots & \vdots & \ddots & \vdots \\
      \pi_{N1,j} & \pi_{N2,j} & \cdots & \pi_{NN,j} \\
    
    \end{bmatrix}$:内生变量待估参数
  • $Ut = (u{1,t}, u{2,t}, \cdots, u{N,t})^T \overset {i.i.d.} {\sim} (0, \Omega)$:随机波动项
  • $Zt = (z{1,t}, z{2,t}, \cdots, z{N, t})^T$:外生变量

VAR(k) 变换

  • VAR(k) 模型可通过变换附加伴随矩阵式,改写为 VAR(1)

Structured VAR

SVAR:结构 VAR 模型,在 VAR 模型基础上加入内生变量当期值

  • 即解释变量中含有当期变量

两变量 SVAR(1)

含外生变量 VAR(1)

  • $Y_t, Z_t, V_t$:内生变量向量、外生变量向量、误差项向量
  • $A, D, B, F$:模型结构参数
  • $C=A^{-1}D, \Pi_1=A^{-1}B, H=A^{-1}F, U_t=A^{-1}V_t$

VAR 模型稳定性

  • 把脉冲施加在 VAR 模型中某个方程的 Iinnovation 过程上
    • 随着时间推移,冲击会逐渐消失,则模型稳定
    • 冲击不消失的则模型不稳定

一阶 VAR 模型分析

  • $\mu = (I + \Pi_1 + \Pi_2^2 + \cdots + \Pi_1^{t-1})C$:漂移向量
  • $Y_0$:初始向量
  • $U_t$:新息向量
  • $t \rightarrow \infty$ 时有

两变量 VAR(1) 稳定条件

  • 稳定条件
    • 特征方程$|\Pi_1 - \lambda I|=0$根都在单位圆内
    • 相反的特征方程$|I - L\Pi_1|=0$根都在单位圆外

VAR(k) 稳定条件

  • $A$:$Nk$ 阶方阵
  • $N$:回归向量维度
  • $k$:自回归阶数
  • 稳定条件
    • 特征方程 $|A - \lambda I| = 0$ 根全在单位圆内
    • 相反的特征方程 $|I - LA| = 0$ 根全在单位圆外

VEC 模型

N 变量 VEC(k)

  • $\Pi = \sum_{i=1}^k \Pi_i - I$:影响矩阵
  • $\Gammai = -\sum{j=i+1}^k$

VEC(1)

Impulse-Response Function

脉冲响应函数:描述内生变量对误差冲击的反应

  • 脉冲响应函数含义

    • 在随机误差下上施加标准查大小的冲击后,对内生变量当期值和未来值所带来的影响
    • 即将 VAR 模型表示为无限阶的向量 $MA(\infty)$ 过程
  • 对脉冲响应函数的解释的困难源于,实际中各方程对应误差项不是完全非相关

    • 误差相关时,其有一个共同组成部分,不能被任何特定变量识别
    • 故,左乘变换矩阵 $M$ 得到 $V_t = MU_t$ 修正相关性(常用 Cholesky 分解求解)
      • 即将其协方差矩阵变换为对角矩阵 $V_t = MU_t \sim (0, \Omega)$

VAR(1) 转换为 MA

  • $\Psis = A^s = \frac {\partial Y{t+s}} {\partial U_t}$
  • $\Psis[i, j] = \frac {\partial y{i,t+s}} {\partial u{j,t}}$:脉冲响应函数,表示其他误差项在任何时期都不变条件下,第 $j$ 个变量 $y{j,t}$ 在对应误差项 $u{j,t}$ 在 $t$ 期受到一个单位冲击后,对第 $i$ 个内生变量 $y{i,t}$ 在 $t+s$ 期造成的影响

方差分解

方差分解:分析未来 $t+s$ 期 $y_{j, t+s}$ 的预测误差受不同新息冲击影响比例

均方误差

  • 误差可以写为 MA 形式

  • 则预测s期的均方误差为

  • $\Omega = E(U_tU_t^T)$:不同期 $U_t$ 协方差阵为 0

计算比例

  • $v{1,t}, v{2,t}, \cdots, v_{N,t}$不相关
  • 将 $\Omega$ 带入 MSE 表达式中,既可以得到第 $j$ 个新息对 $s$ 期预测量 $\hat Y_{t+s|t}$ 的方差贡献比例

VAR 建模

var_procedure

  • 进行单变量平稳性检验

  • 拟合 VAR(p) 模型

    • 确定模型阶数
      • 理论上初步模型阶数可以任意确定
      • 然后根据 AICBIC、对数似然函数值选择相对最优阶数
  • 若所有变量平稳,则 Granger 因果检验

    • VAR 模型通过平稳性检验,理论上就可以利用模型进行分析、预测
    • VAR 模型是超系数模型,默认所有内生变量互为因果
      • 但实际上变量之间因果关系复杂
      • 可通过 Granger 因果检验判断变量之间长期、短期因果关系
  • 若有变量非平稳

    • 检验模型平稳性
    • Granger 因果检验
    • 协整检验:JJ 检验
      • 非平稳系统必然存在协整关系,具有经济学意义
      • 所以需要找出存在的基础协整关系,解读其代表的长期、短期相关影响
    • 构建 VEC 模型
      • 如果协整检验显示基本协整关系满秩,说明系统中每个序列都是平稳序列,直接建立VAR模型
      • 如果协整检验限制基本协整关系为 0 秩,则系统不存在协整关系,通常说明系统不平稳,需要重新选择变量, 或者适当差分后建模
      • 最常见情况是协整检验显示基本协整关系数量处于 0 至满秩中间,此时建立 $VEC$ 模型
  • 脉冲响应分析

  • 方差分析

  • 模型预测