常用定理
Lucas 定理
- $p < 10^5$:必须为素数
Holder 定理
$|x|^{*}_p = |x|_q$
- $\frac 1 p + \frac 1 q = 1$
RBF 径向基函数:取值仅依赖到原点距离的实值函数,即 $\phi(x) = \phi(|x|)$
径向基函数最初用于解决多变量插值问题
- 定义 $r=|x-x_i|$
高斯函数
Multiquadric 多二次函数:
Inverse Quadric 逆二次函数:
Polyharmonic Spline 多重调和样条:
Thin Plate Spline 薄板样条(多重调和样条特例):
L1正则化
- $\lambda$:正则化项参数
- $sgn$:符号函数
- $g^{(t)}=\nabla_w L(w^{(t)}, Z^{(t)})$:损失函数对参数梯度
简单截断法:以$k$为窗口,当$t/k$非整数时,使用标准SGD迭代, 否则如下更新权重
- $w^{(t)}$:模型参数
- $g^{(t)}$:损失函数对模型参数梯度
- $T_0$:截断函数
- $\theta$:控制参数稀疏性
截断梯度法:以$k$为窗口,当$t/k$非整数时,使用标准SGD迭代, 否则如下更新权重
- $\lambda, \theta$:控制参数$w$稀疏性
对简单截断的改进,避免在实际(OgD)中参数因训练不足过小 而被错误截断,造成特征丢失
FOBOS:前向后向切分,权重更新方式为proximal method如下
L1-FOBOS:即令$Phi(w)=\lambda |w|_1$,则根据可加性如下
- $V=[v_1, v_2, \cdots, v_N]:=w^{(t.5)}$:为方便
- $\tilde \lambda := \eta^{t.5} \lambda$:为方便
- $\eta^{t.5}$:学习率,常取 $\eta^{(t)} \in \theta(\frac 1 {\sqrt t})$
则对$w_i$求次梯度、分类讨论,解得
可以理解为:到当前样本为止,维度权重小于阈值 $\eta^{(t.5)} \lambda$)时,认为该维度不够重要, 权重置为0
可视为$k=1, \theta=\infty$的Tg算法
另外,显然有$w_i^{(t+1)} v_i \geq 0$
- 考虑$w_i^{(t+1)}$使得目标函数最小,带入$w=0$则得
RDA算法:正则对偶平均算法,权重更新方式为 包含[增广]正则项的最速下降
目标函数包括三个部分
相较于TG、FOBOS是从另一方面求解在线最优化,更有效地提升 特征权重稀疏性
L1 RDA:令$\Phi(w) := \lambda |w|_1$, 再设$h(w) := |w|_2^2$,根据可加性则有
- $\lambda > 0, \gamma > 0$
- $\bar gi^{(t)} = \frac 1 t \sum{r=1}^t g_i^{(r)}$
对$w_i$求次梯度、置零、求解得
相较于L1-FOBOS的截断
FTRL:综合考虑L1-RDA、L1-FOBOS
将L1-FOBOS类似近端算法收敛证明中展开、去除无关项、放缩, 得到类似L1-RDA目标函数
将L1-RDA目标函数整体整体放缩,得到
- $g^{(1:t)} := \sum_{r=1}^t g^{(r)}$
FTRL综合考虑L1-FOBOS、L1-RDA,得到目标函数
将FTRL中最后一项拆分、去除无关项
则同样根据可加性,对各分量求次梯度、置零、求解得
其中学习率$\eta$为类似Adagrad优化器的学习率,但包括可学习 参数$\alpha, \beta$
- $f(x)$:凸函数
- 近端算子连续可微
对一般凸$f(x)$,通常使用次梯度进行优化,其近端算子解为 (即解变动方向$p-x$为负次梯度方向)
对光滑凸函数$f$,上述等式对其近端算子约简为 (即解变动方向$p-x$为负梯度方向)
取$f(x) = |x|_1$,即可得即软阈值算子
- 参考坐标下降:近端算子中二次项中各分量无关,所以一轮 迭代即为最优解
- $A^T A = \alpha I, \alpha > 0$:线性变换
- $g$:良好闭凸函数
- 取$f(x)$为示性函数、约束条件,即得到投影算子
- $f$为良好闭凸函数,则以下三条等价
- $y = prox_f(x)$
- $x - y \in \partial f(y)$:由近端算子定义即得
- $\forall z,
\leq f(z) - f(y)$
证明
- $x_f = \arg\min_x f(x)$
- $x_p = \arg\min_x prox_f(x)$
投影算子
POCS/project onto convex sets method:用于解同时满足多个 凸约束的算法
$f_i$作为非空闭凸集$C_i$示性函数,表示一个约束,则整个 问题约简为convex feasibility problem
只需要找到位于所有$C_i$交集的解即可
每次迭代
- 在其他问题中投影算子不再适合,需要更一般的算子,在其他 各种同样的凸投影算子中,近端算子最合适
近端算法:分两步分别优化可微凸$F(x)$、凸$R(x)$,近似优化目标 函数整体,不断迭代直至收敛
- $F(x)$:可微、凸函数
- $\nabla F(x)$:Lipschitz continous、利普希茨常数为$L$
- $R(x)$:下半连续凸函函数,可能不光滑
- $\mathcal{H}$:目标函数定义域集合,如:希尔伯特空间
gredient step:从$x^{(k)}$处沿$F(x)$负梯度方向微小移动 达到$x^{(k.5)}$
proximal operator step:在$x^{(k.5)}$处应用$R(x)$近端 算子,即寻找$x^{(k.5)}$附近且使得$R(x)$较小点
- $\frac {\gamma} 2 |\nabla F(x)|_2^2, F(x)$:与$u$无关 ,相互替换不影响极值
- $0 < \gamma \leq \frac 1 L$:保证最后反向泰勒展开成立
则$prox_{\gamma R}(x-\gamma \nabla F(x))$解即为 “原问题最优解”(若泰勒展开完全拟合$F(x)$)
考虑泰勒展开是局部性质,$u$作为极小值点只能保证在$x$附近 领域成立,可将近端算子解作为下个迭代点
迭代终止条件即
- $\nabla^2 F(\zeta)$:凸函数二阶导正定
- $|\nabla F(u) - \nabla F(x)|_2 \leq L |u-x|_2$: $\nabla F(x)$利普希茨连续性质
$L$已知时,可直接确定$\gamma \in (0, \frac 1 L]$,
否则可线性迭代搜索$\gamma := \beta \gamma,\beta < 1$, 直至
- $PG{\gamma R}(x)=x-prox{\gamma R}(x-\gamma \nabla F(x))$
- 直接根据下述利普希茨条件须求Hasse矩阵,计算量较大
对$F(x)+R(x)$在$x_0$附近作泰勒展开
- $\lambda \in (0, \frac 1 L]$
- $L$:$F(x)$利普希茨常数
- $\leq$:由Lipschitz连续可取
考虑对极小化目标添加常数项不影响极值,对不等式右侧添加 与$u$无关项$\frac \gamma 2 |\nabla F(x)|_2^2$、剔除 剔除$F(x)$凑出近端算子
- 求解non-differentiable凸优化问题的通用投影形式
- $f_i(x)$:凸函数,不一定处处可微
目标函数中包含不处处连续可微函数,整个目标函数不光滑
分开考虑各个函数,对非光滑函数使用近端算子处理
- 考虑使用Bregman Divergence替代近端算子中欧式距离
- 取$\mu(x) = \frac 1 2 |x|_2^2$时,即为普通近端算子
坐标下降法:在当前点处延一个坐标方向进行一维搜索以求得函数 的局部极小值
优化方向从算法一开始就固定,如:选择线性空间中一组基作为 搜索方向
循环极小化各坐标方向上目标函数值,即:若$x^k$给定,则
- $k$:第k轮迭代
- $i$:某轮迭代中更新第i个方向
对初始值为$X_0$得到迭代序列$X_1, \cdots, X_n$,对精确 一维搜索类似最速下降有
若某轮迭代中目标函数无法被有优化,说明已经达到驻点
自适应坐标下降:变换坐标系使得在考虑目标函数的情况下,新坐标 间尽可能不相关
对非可拆分函数(可加?),算法可能无法在较小迭代步数中 求得最优解
自适应坐标下降具有以下特性,和最先进的进化算法相当
块坐标下降:在当前点处在一个超平面内方向进行搜索以求得函数 的局部极小值
目标函数
RSS求导
- $(\frac {\partial RSS} {\partial x})_i$:RSS对$x$ 导数第$i$分量,即对$x_i$偏导
- $A_{:i}$:$A$第$i$列
- $x_{i0}$:$x$第$i$分量置零
- $zi = (Ax{i0} - y)^T A_{:i}$
- $\rhoi = A{:i}^T A_{:i}$
则$x_i$整体次梯度为
分类讨论:令整体次梯度为0求解$x_i$、回带确定参数条件
- 此算子也称soft threshholding
- $Phi(x)$:凸函数
布雷格曼散度:穷尽所有关于“正常距离”的定义
特点
Domain | $\Phi(x)$ | $D_{\Phi}(x,y)$ | Divergence | ||||
---|---|---|---|---|---|---|---|
$R$ | $x^2$ | $(x-y)^2$ | Squared Loss | ||||
$R_{+}$ | $xlogx$ | $xlog(\frac x y) - (x-y)$ | |||||
$[0,1]$ | $xlogx + (1-x)log(1-x)$ | $xlog(\frac x y) + (1-x)log(\frac {1-x} {1-y})$ | Logistic Loss | ||||
$R_{++}$ | $-logx$ | $\frac x y - log(\frac x y) - 1$ | Itakura-Saito Distance | ||||
$R$ | $e^x$ | $e^x - e^y - (x-y)e^y$ | |||||
$R^d$ | $\ | x\ | $ | $\ | x-y\ | $ | Squared Euclidean Distance |
$R^d$ | $x^TAx$ | $(x-y)^T A (x-y)$ | Mahalanobis Distance | ||||
d-Simplex | $\sum_{j=1}^d x_j log_2 x_j$ | $\sum_{j=1}^d x_j log_2 log(\frac {x_j} {y_j})$ | KL-divergence | ||||
$R_{+}^d$ | $\sum_{j=1}^d x_j log x_j$ | $\sum{j=1}^d x_j log(\frac {x_j} {y_j}) - \sum{j=1}^d (x_j - y_j)$ | Genelized I-divergence |
- 正常距离:对满足任意概率分布的点,点平均值点(期望点)应该是空间中距离所有点平均距离最小的点
- 布雷格曼散度对一般概率分布均成立,而其本身限定由凸函数生成
- 和 Jensen 不等式有关?凸函数隐含部分对期望的度量
- http://www.jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf
闵科夫斯基距离:向量空间 $\mathcal{L_p}$ 范数
表示一组距离族
闵氏距离缺陷
马氏距离:表示数据的协方差距离
- $\Sigma$:总体协方差矩阵
兰氏距离:Lance and Williams Distance,堪培拉距离
汉明距离:差别
- $v_i \in {0, 1}$:虚拟变量
- $p$:虚拟变量数量
- 以上汉明距离空间嵌入对曼哈顿距离是保距的
Jaccard 系数:度量两个集合的相似度,值越大相似度越高
- $S_1, S_2$:待度量相似度的两个集合
余弦相似度
- $x_1, x_2$:向量
- $T={(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)}$:样本点集
- $wx + b = 0$:超平面
函数间隔可以表示分类的正确性、确信度
点集与超平面的函数间隔取点间隔最小值 $\hat{T} = \min_{i=1,2,\cdots,n} \hat{\gamma_i}$
超平面参数 $w, b$ 成比例改变时,平面未变化,但是函数间隔成比例变化
几何间隔一般是样本点到超平面的 signed distance
几何间隔相当于使用 $|w|$ 对函数间隔作规范化
点集与超平面的几何间隔取点间隔最小值 $\hat{T} = \min_{i=1,2,\cdots,n} \hat{\gamma_i}$
(字符串)编辑距离:两个字符串转换需要进行插入、删除、替换操作的次数
勒让德变换:用 $f^{ * }(p)$ 表示凸、可导函数 $f(x)$ 的变换,其中 $p$ 是 $f(x)$ 导数
- $x$:参数,满足 $\frac {d(p^T x - f(x))} {dx} = 0$,随 $p$ 取值改变
- 可导:有导数;凸:导数唯一
- involution 对合:对合函数 $f$ 的反函数的为自身,即 $f(f(x))=x$;对合线性变换 $V$ 满足 $V^2 = E$
$f^{*}(p)$:可理解为斜率为 $p$、同 $f(x)$ 有交点 $x_0$ 的直线在零点处值(截距)和 $f(x_0)$ 的最大差
$x$:可以理解为函数 $f(x)$ 上距离给定斜率为 $p$、过原点的直线 $f(x)=px$ 竖直距离最大的点
- 类似一个端点为 $0$ 的 Bregman 散度
Legendre 变换为对合变换,进行两次的变换得到原函数
若视凸函数 $f(x)$ 视为积分,则其共轭 $f^{ * }(x)$ 为对另一轴积分,二者导函数互为反函数
- 以上性质均按 Fenchel 共轭,但要求 $f(x)$ 为凸、可导函数,故等价于 Legendre 变换
标度性质
由此,$r$次齐次函数的勒让德变换是$s$次齐次函数,满足
平移性质
反演性质
线性变换性质
- $f$:$R^n$上的凸函数
- $A$:$R^n \rightarrow R^m$的线性变换
- $A^{}: <Ax, y^{}> =
$:$A$伴随算子
- 非凸函数线性外包络是凸函数
证明
按积分理解,仅$p$为$x$共轭时取等号
原问题 Prime
约束条件 $g(x) \leq 0$ 扰动函数化、求 Fenchel 共轭
记 $\lambda = -y$,并将 $y=-\lambda$ 带入 $-p^{*}(y)$ 中得到
- $\lambda = -y$
将 $\inf_{x \in X, g(x) \leq u}$ 外提,并考虑到约束 $g(x) \leq u$(即 $u \geq g(x)$),则
考虑 Fenchel 不等式
则可得 Lagrange 对偶 Prime、Dual 最优关系
- Fenchel 对偶可以视为 Lagrange 对偶的应用
原问题、等价问题
对上式取 Lagrange 对偶 $L(u)$、等价得到
- Fenchel 对偶:寻找截距差值最大的平行切线
(连续)傅里叶变换:将时域映射到频域的变换
- $x$:自变量,多表示时间
- $F(\xi)$:频率
将自变量 $x$ 线性映射为极坐标系中角度,调整线性映射的比例(即频率),即可绘制出不同的曲线
计算不同频率下曲线围成的图像的质心(径向)坐标
据以上:周期函数映射在极坐标系下图像,其质心位置在对应频率下取波峰值
利用复数项 $e^{-2\pi ix \xi}$ 表示在复平面中的旋转角度
函数围成的曲线质心则为 $\frac 1 {x2 - x_1} \int{x_1}^{x_2} f(x) e^{-2\pi ix \xi} dx$
DFT:归一化二维离散傅里叶变换
余弦变换
- 在给定区间为满足狄利克雷条件的连续实对称函数,可以展开为 仅含余弦项的傅里叶级数
$(x,y) or (u,v) = (0,0)$时
其他