Posted 2021-06-09Updated 2021-06-09Math Mixina few seconds read (About 5 words)

常用不等式

Cauthy-Schwarz 不等式

https://zhuanlan.zhihu.com/p/22004031

https://zhuanlan.zhihu.com/p/129033407

https://zhuanlan.zhihu.com/p/70315155

https://zhuanlan.zhihu.com/p/85283405

Posted 2021-05-13Updated 2021-08-04Math Mixina few seconds read (About 40 words)

常用等式

常用定理

Lucas 定理

$C(n, m) \% p = (C(n//p, m//p) * C(n\%p, m\%p)) \% p$

$p < 10^5$：必须为素数

Holder 定理

$|x|^{*}_p = |x|_q$

$\frac 1 p + \frac 1 q = 1$

Posted 2019-07-21Updated 2019-07-21Math Mixin9 minutes read (About 1338 words)

距离函数

距离

距离可认为是两个对象 $x,y$ 之间的 相似程度
- 距离和相似度是互补的
- 可以根据处理问题的情况，自定义距离

Bregman Divergence

$D(x, y) = \Phi(x) - \Phi(y) - <\nabla \Phi(y), (x - y)>$

$Phi(x)$：凸函数

布雷格曼散度：穷尽所有关于“正常距离”的定义
- 给定 $R^n * R^n \rightarrow R$ 上的正常距离 $D(x,y)$，一定可以表示成布雷格曼散度形式
- 直观上：$x$处函数、函数过$y$点切线（线性近似）之差
  - 可以视为是损失、失真函数：$x$由$y$失真、近似、添加噪声得到
特点
- 非对称：$D(x, y) = D(y, x)$
- 不满足三角不等式：$D(x, z) \leq D(x, y) + D(y, z)$
- 对凸集作 Bregman Projection 唯一
  - 即寻找凸集中与给定点Bregman散度最小点
  - 一般的投影指欧式距离最小

Domain	$\Phi(x)$	$D_{\Phi}(x,y)$	Divergence
$R$	$x^2$	$(x-y)^2$	Squared Loss
$R_{+}$	$xlogx$	$xlog(\frac x y) - (x-y)$
$[0,1]$	$xlogx + (1-x)log(1-x)$	$xlog(\frac x y) + (1-x)log(\frac {1-x} {1-y})$	Logistic Loss
$R_{++}$	$-logx$	$\frac x y - log(\frac x y) - 1$	Itakura-Saito Distance
$R$	$e^x$	$e^x - e^y - (x-y)e^y$
$R^d$	$\	x\	$	$\	x-y\	$	Squared Euclidean Distance
$R^d$	$x^TAx$	$(x-y)^T A (x-y)$	Mahalanobis Distance
d-Simplex	$\sum_{j=1}^d x_j log_2 x_j$	$\sum_{j=1}^d x_j log_2 log(\frac {x_j} {y_j})$	KL-divergence
$R_{+}^d$	$\sum_{j=1}^d x_j log x_j$	$\sum{j=1}^d x_j log(\frac {x_j} {y_j}) - \sum{j=1}^d (x_j - y_j)$	Genelized I-divergence

正常距离：对满足任意概率分布的点，点平均值点（期望点）应该是空间中距离所有点平均距离最小的点

布雷格曼散度对一般概率分布均成立，而其本身限定由凸函数生成

和 Jensen 不等式有关？凸函数隐含部分对期望的度量

http://www.jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf

单点距离

Minkowski Distance

闵科夫斯基距离：向量空间 $\mathcal{L_p}$ 范数

$d_{12} = \sqrt [1/p] {\sum_{k=1}^n |x_{1,k} - x_{2,k}|^p}$

表示一组距离族
- $p=1$：Manhattan Distance，曼哈顿距离
- $p=2$：Euclidean Distance，欧式距离
- $p \rightarrow \infty$：Chebychev Distance，切比雪夫距离
闵氏距离缺陷
- 将各个分量量纲视作相同
- 未考虑各个分量的分布

Mahalanobis Distance

马氏距离：表示数据的协方差距离

$d_{12} = \sqrt {({x_1-\mu}^T) \Sigma^{-1} (x_2-\mu)}$

$\Sigma$：总体协方差矩阵

优点
- 马氏距离和原始数据量纲无关
- 考虑变量相关性
缺点
- 需要知道总体协方差矩阵，使用样本估计效果不好

LW Distance

兰氏距离：Lance and Williams Distance，堪培拉距离

$d_{12} = \sum^{n}_{k=1} \frac {|x_{1,k} - x_{2,k}|} {|x_{1,k} + x_{2,k}|}$

特点
- 对接近0的值非常敏感
- 对量纲不敏感
- 未考虑变量直接相关性，认为变量之间相互独立

Hamming Distance

汉明距离：差别

$diff = \frac 1 p \sum_{i=1}^p (v^{(1)}_i - v^{(2)}_i)^k$

$v_i \in {0, 1}$：虚拟变量

$p$：虚拟变量数量

可以衡量定性变量之间的距离

Embedding

找到所有点、所有维度坐标值中最大值 $C$
对每个点 $P=(x_1, x_2, \cdots, x_d)$
- 将每维 $x_i$ 转换为长度为 $C$ 的 0、1 序列
- 其中前 $x_i$ 个值为 1，之后为 0
将 $d$ 个长度为 $C$ 的序列连接，形成长度为 $d * C$ 的序列

以上汉明距离空间嵌入对曼哈顿距离是保距的

Jaccard 系数

Jaccard 系数：度量两个集合的相似度，值越大相似度越高

$sim = \frac {\|S_1 \hat S_2\|} {\|S_1 \cup S_2\|}$

$S_1, S_2$：待度量相似度的两个集合

Consine Similarity

余弦相似度

$similarity = cos(\theta) = \frac {x_1 x_2} {\|x_1\|\|x_2\|}$

$x_1, x_2$：向量

欧式距离

点到平面

$T={(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)}$：样本点集

$wx + b = 0$：超平面

Functional Margin 函数间隔

$\hat{\gamma_i} = y_i(wx_i + b)$

函数间隔可以表示分类的正确性、确信度
- 正值表示正确
- 间隔越大确信度越高
点集与超平面的函数间隔取点间隔最小值 $\hat{T} = \min_{i=1,2,\cdots,n} \hat{\gamma_i}$
超平面参数 $w, b$ 成比例改变时，平面未变化，但是函数间隔成比例变化

Geometric Margin 几何间隔

$\begin{align*} \gamma_i & = \frac {y_i} {\|w\|} (wx_i + b) \\ & = \frac {\hat \gamma_i} {\|w\|} \end{align*}$

几何间隔一般是样本点到超平面的 signed distance
- 点正确分类时，几何间隔就是点到直线的距离
几何间隔相当于使用 $|w|$ 对函数间隔作规范化
- $|w|=1$ 时，两者相等
- 几何间隔对确定超平面、样本点是确定的，不会因为超平面表示形式改变而改变
点集与超平面的几何间隔取点间隔最小值 $\hat{T} = \min_{i=1,2,\cdots,n} \hat{\gamma_i}$

Levenshtein/Edit Distance

（字符串）编辑距离：两个字符串转换需要进行插入、删除、替换操作的次数

$lev_{A,B}(i, j) = \left \{ \begin{array}{l} i, & j = 0 \\ j, & i = 0 \\ min \left \{ \begin{array}{l} lev_{A,B}(i,j-1) + 1 \\ lev_{A,B}(i-1,j) + 1 \\ lev_{A,B}(i-1, j-1) + 1 \end{array} \right. & A[i] != B[j] \\ min \left \{ \begin{array}{l} lev_{A,B}(i,j-1) + 1 \\ lev_{A,B}(i-1,j) + 1 \\ lev_{A,B}(i-1, j-1) \end{array} \right. & A[i] = B[j] \\ \end{array} \right.$

组间距离

Single Linkage

Average Linkage

Complete Linkage

Posted 2019-07-21Updated 2019-07-21Math Mixin27 minutes read (About 4010 words)

Hashing

Hash Function

hash：散列/哈希，将任意类型值转换为关键码值

hash function：哈希/散列函数，从任何数据中创建小的数字“指纹”的方法

hash value：哈希值，哈希函数产生关键码值

collision：冲突，不同两个数据得到相同哈希值

哈希函数应该尽可能使得哈希值均匀分布在目标空间中
- 降维：将高维数据映射到低维空间
- 数据应该低维空间中尽量均匀分布

数据相关性

Data Independent Hashing：数据无关哈希，无监督，哈希函数基于某种概率理论
- 对原始的特征空间作均匀划分
- 对分布不均、有趋向性的数据集时，可能会导致高密度区域哈希桶臃肿，降低索引效率
Data Dependent Hashing：数据依赖哈希，有监督，通过学习数据集的分布从而给出较好划分的哈希函数
- 得到针对数据密度动态划分的哈希索引
- 破坏了传统哈希函数的数据无关性，索引不具备普适性

应用

查找数据结构：cs_algorithm/data_structure/hash_table
- 哈希表
信息安全方向：cs_algorithm/specification/info_security
- 文件检验
- 数字签名
- 鉴权协议

哈希函数

简单哈希函数主要用于提升查找效率（构建哈希表）
- 要求哈希函数的降维、缩小查找空间性质
- 计算简单、效率高
复杂哈希函数主要用于信息提取
- 要求哈希函数的信息提取不可逆、非单调映射
- 查表哈希
  - CRC 系列算法：本身不是查表，但查表是其最快实现
  - Zobrist Hashing
- 混合哈希：利用以上各种方式
  - MD5
  - Tiger

单值输入

直接寻址法：取关键字、或其某个线性函数值 $hash(key) = (a * key + b) \% prime$
- $prime$：一般为质数，以使哈希值尽量均匀分布，常用的如：$2^{32}-5$
数字分析法：寻找、利用数据规律构造冲突几率较小者
- 如：生日信息前 2、3 位大体相同，冲突概率较大，优先舍去
平方取中法：取关键字平方后中间几位
折叠法：将关键字分割为位数相同部分，取其叠加和
随机数法：以关键字作为随机数种子生成随机值
- 适合关键字长度不同场合

常用于之前哈希结果再次映射为更小范围的最终哈希值

序列输入

加法哈希

加法哈希：将输入元素相加得到哈希值

标准加法哈希

AddingHash(input):
	hash = 0
	for ele in input:
		hash += ele
	# prime 为任意质数，常用 2^32 - 5
	hash = hash  % prime

最终哈希结果 $\in [0, prime-1]$

位运算哈希

位运算哈希：利用位运算（移位、异或等）充分混合输入元素

标准旋转哈希

RotationHash(input):
	hash = 0
	for ele in input:
		hash = (hash << 4) ^ (hash >> 28) ^ ele
	return hash % prime

变形 1
1
hash = (hash<< 5) ^ (hash >> 27) ^ ele

变形2

1
2
3

hash += ele
hash ^= (hash << 10)
hash ^= (hash >> 6)

变形3

if (ele & 1) == 0:
	hash ^= (hash << 7) ^ ele ^ (hash >> 3)
else:
	hash ^= ~((hash << 11) ^ ele ^ (hash >> 5))

变形4
1
hash += (hash << 5) + ele

变形5

1	hash = ele + (hash << 6) + (hash >> 16) - hash

变形6

1	hash ^= (hash << 5) + ele + (hash >> 2)

乘法哈希

乘法哈希：利用乘法的不相关性

平方取头尾随机数生成法：效果不好

Bernstein 算法

Bernstein(input):
	hash = 0
	for ele in input:
		hash = 33 * hash + ele
	return hash

其他常用乘数：31、131、1313、13131、131313

32位 FNV 算法

M_SHIFT =
M_MASK =
FNVHash(input):
	hash = 2166136261;
	for ele in input:
		hash = (hash * 16777619) ^ ele
	return (hash ^ (hash >> M_SHIFT)) & M_MASK

改进的 FNV 算法

FNVHash_2(input):
	hash = 2166136261;
	for ele in input:
		hash = (hash ^ ele) * 16777619
	hash += hash << 13
	hash ^= hash >> 7
	hash += hash << 3
	hash ^= hash >> 17
	hash += hash << 5
	return hash

乘数不固定

RSHash(input):
	hash = 0
	a, b = 378551, 63689
	for ele in input:
		hash = hash * a + ele
		a *= b
	return hash & 0x7FFFFFFF

除法也类似乘法具有不相关性，但太慢

定长序列

两步随机数

main_rand_seq = randint(k)
TwoHashing(input[0,...,k]):
	hash = 0
	from i=0 to k:
		hash += input[i] * main_rand_seq[i]
	hash = hash mod prime

Universal Hashing

全域哈希：键集合 $U$ 包含 $n$ 个键、哈希函数族 $H$ 中哈希函数 $h_i: U \rightarrow 0..m$，若 $H$ 满足以下则为全域哈希 $$
  \forall x \neq y \in U, | \{h|h \in H, h(x) = h(y) \} | = \frac {|H|} m
$$

$|H|$：哈希函数集合 $H$ 中函数数量

独立与键值随机从中选择哈希函数，避免发生最差情况
可利用全域哈希构建完美哈希

性质

全域哈希 $H$ 中任选哈希函数 $h_i$，对任意键 $x \neq y \in U$ 冲突概率小于 $\frac 1 m$
- 由全域哈希函数定义，显然
全域哈希 $H$ 中任选哈希函数 $hi$，对任意键 $x \in U$，与其冲突键数目期望为 $\frac n m$，即 $E{[collision_x]}=\frac n m$
- $C_x$：任选哈希函数，与 $x$ 冲突的键数量
- $C_{xy} = \left { \begin{matrix} 1, & h_i(x) = h_i(y) \ 0, & otherwise \end{matrix} \right.$：指示 $x,y$ 是否冲突的指示变量
- $m = n^2$ 时，冲突期望小于 0.5
  - $n$ 个键两两组合数目为 $C_n^2$
  - 则 $E_{total} < C_n^2 \frac 1 n < 0.5$

例

以下构造 $[0,p-1] \rightarrow [0,m-1]$ 全域哈希

$p$ 为足够大素数使得所有键值 $\in [0,p-1]$
- 记 $Z_p = { 0,1,\cdots,p-1 }$
- 记 $Z_p^{*}={ 1,2,\cdots,p-1 }$
- 且哈希函数映射上限（哈希表长度） $m < max(U) < p$
记哈希函数
$\forall a \in Z_p^{*}, b \in Z_p, h_{a, b}(k) = ((a k + b) \% p) \% m$
则以下哈希函数族即为全域哈希
$H_{p,m} = {h_{a,b}|a \in Z_p^{*}, b \in Z_p}$

Locality Sensitive Hashing

LSH：局部敏感哈希

$(r_1,r_2,P_1,P_2)-sensitive$ 哈希函数族 $H$ 需满足如下条件 $$ \begin{align*}
  Pr_{H}[h(v) = h(q)] \geq P_1, & \forall q \in B(v, r_1) \\
  Pr_{H}[h(v) = h(q)] \geq P_2, & \forall q \notin B(v, r_2) \\
\end{align*}$$

$h \in H$

$r_1 < r_2, P_1 > P_2$：函数族有效的条件

$B(v, r)$：点 $v$ 的 $r$ 邻域

$r_1, r_2$：距离，强调比例时会表示为 $r_1 = R, r_2 = cR$

此时 相似目标（距离小）有更大概率发生冲突

LSH查找

思想

general_lsh_comparsion

相似目标更有可能映射到相同哈希桶中
- 则只需要在目标所属的哈希桶中进行比较、查找即可
- 无需和全集数据比较，大大缩小查找空间
可视为降维查找方法
- 将高维空间数据映射到 1 维空间，寻找可能近邻的数据点
- 缩小范围后再进行精确比较

概率放大

期望放大局部敏感哈希函数族 $Pr_1, Pr_2$ 之间差距

增加哈希值长度（级联哈希函数中基本哈希函数数量） $k$
- 每个哈希函数独立选择，则对每个级联哈希函数 $g_i$ 有 $Pr[g_i(v) = g_i(q)] \geq P_1^k$
- 虽然增加哈希键位长会减小目标和近邻碰撞的概率，但同时也更大程度上减少了和非近邻碰撞的概率、减少搜索空间
- 级联哈希函数返回向量，需要对其再做哈希映射为标量，方便查找
增加级联哈希函数数量（哈希表数量） $L$
- $L$个哈希表中候选项包含真实近邻概率至少为 $1 - (1 - P_1^k)^L$
- 增加哈希表数量能有效增加候选集包含近邻可能性
- 但同时也会增大搜索空间

搜索近似最近邻

使用 $L$ 个级联哈希函数分别处理待搜索目标
在 $L$ 个哈希表分别寻找落入相同哈希桶个体作为候选项
在所有候选项中线性搜索近邻

基于汉明距离的 LSH

在汉明距离空间中搜索近邻
- 要求数据为二进制表示
- 其他距离需要嵌入汉明距离空间才能使用
  - 欧几里得距离没有直接嵌入汉明空间的方法
    - 一般假设欧几里得距离和曼哈顿距离差别不大
    - 直接使用对曼哈顿距离保距嵌入方式

设计哈希函数族

考虑哈希函数族 $H = { h_1, h_2, \cdots, h_m }$
- 其中函数 $h_i$ 为 ${0, 1}^d$ 到 ${0, 1}$ 的映射：随机返回特定比特位上的值
从 $H$ 中随机的选择哈希函数 $h_i$
- 则 $Pr[h_i(v) = h_i(q)]$ 等于 $v, q$ 相同比特数比例，则
  - $Pr_1 = 1 - \frac R d$
  - $Pr_2 = 1 - \frac {cR} d$
- 考虑到 $Pr_1 > Pr_2$，即此哈希函数族是局部敏感的

基于 Jaccard 系数的 LSH

考虑 $M * N$ 矩阵 $A$，元素为 0、1
- 其中
  - $M$：集合元素数量
  - $N$：需要比较的集合数量
- 目标：寻找相似集合，即矩阵中相似列
用 Jaccard 系数代表集合间相似距离，用于搜索近邻
- 要求各数据向量元素仅包含 0、1：表示集合是否包含该元素

定义 Min-hashing 函数族

对矩阵 $A$ 进行 行随机重排 $\pi$，定义 Min-hashing 如下
- $C$：列，表示带比较集合
- $\min \pi(C)$：$\pi$ 重排矩阵中 $C$ 列中首个 1 所在行数
则不同列（集合） Min-hashing 相等概率等于二者 Jaccard 系数
- $a$：列 $C_1, C_2$ 取值均为 1 的行数
- $b$：列 $C_1, C_2$ 中仅有一者取值为 1 的行数
- 根据 Min-hashing 定义，不同列均取 0 行被忽略

Min-hashing 实现

数据量过大时，对行随机重排仍然非常耗时，考虑使用哈希函数模拟行随机重排
- 每个哈希函数对应一次随机重排
  - 哈希函数视为线性变换
  - 然后用哈希函数结果对总行数取模
- 原行号经过哈希函数映射即为新行号
为减少遍历数据次数，考虑使用迭代方法求解
1
2
3
4
5
6
for i from 0 to N-1:
for j from 0 to M-1:
if D[i][j] == 1:
for k from 1 to K:
# 更新随机重拍后，第 `j` 列首个 1 位置
DD[k][j] = min(h_k(i), DD[k][j])
- $D$：原始数据特征矩阵
- $DD$：$Min-hashing* 签名矩阵
- $N$：特征数量，原始特征矩阵行数
- $M$：集合数量，原始特征矩阵列数
- $K$：模拟的随机重排次数，Min-hashing 签名矩阵行数
- $h_k,k=1,…,K$：$K$ 个模拟随机重排的哈希函数，如 $h(x) = (2x + 7) mod N$
- 初始化 Min-hashing 签名矩阵所有值为 $\infty$
- 遍历 $N$ 个特征、$M$ 个集合
  - 查看每个对应元素是否为 1
  - 若元素为 1，则分别使用 $K$ 个哈希函数计算模拟重排后对应的行数
  - 若计算出行数小于当前 *Min-hash$ 签名矩阵相应哈希函数、集合对应行数，更新
- 遍历一遍原始数据之后即得到所有模拟重排的签名矩阵

Exact Euclidean LSH

$E^2LSH$：欧式局部LSH，LSH Based-on P-stable Distribution
- 使用内积将向量随机映射到哈希值
- p-stable 分布性质将欧式距离同哈希值相联系，实现局部敏感
$E^2LSH$ 特点
- 基于概率模型生成索引编码结果不稳定
- 随编码位数 $k$ 增加的，准确率提升缓慢
- 级联哈希函数数量 $L$ 较多时，需要大量存储空间，不适合大规模数据索引

p-stable 哈希函数族

$h_{a, b}(v) = \lfloor \frac {av + b} r \rfloor$

$v$：$n$ 维特征向量

$a = (X_1,X_2,\cdots,X_n)$：其中分量为独立同 p-stable 分布的随机变量

$b \in [0, r]$：均匀分布随机变量

p-stable 哈希函数碰撞概率

考虑$|v_1 - v_2|_p = c$的两个样本碰撞概率

显然，仅在 $|av1 - av_2| \leq r$ 时，才存在合适的 $b$ 使得 $h{a,b}(v1) = h{a,b}(v_2)$
- 即两个样本碰撞，不失一般性可设 $av_1 \leq av_2$
- 此 $r$ 即代表局部敏感的 局部范围
若 $(k-1)r \leq av_1 \leq av_2 < kr$，即两个样本与 $a$ 内积在同一分段内
- 易得满足条件的 $b \in [0,kr-av_2) \cup [kr-av_1, r]$
- 即随机变量 $b$ 取值合适的概率为 $1 - \frac {av_2 - av_1} r$
若 $(k-1)r \leq av_1 \leq kr \leq av_2$，即两个样本 $a$ 在相邻分段内
- 易得满足条件的 $b \in [kr-av_1, (k+1)r-av_2)$
- 即随机变量 $b$ 取值合适的概率同样为 $1 - \frac {av_2 - av_1} r$
考虑 $av_2 - av_1$ 分布为 $cX$，则两样本碰撞概率为
- $c = |v_1 - v_2|_p$：特征向量之间$L_p$范数距离
- $t = a(v_1 - v_2)$
- $f$：p稳定分布的概率密度函数
- $p=1$ 柯西分布
  $p(c) = 2 \frac {tan^{-1}(r/c)} \pi - \frac 1 {\pi(r/c)} ln(1 + (r/c)^2)$
- $p=2$ 正态分布
  $p(c) = 1 - 2norm(-r/c) - \frac 2 {\sqrt{2\pi} r/c} (1 - e^{-(r^2/2c^2)})$

性质、实现

限制近邻碰撞概率

$r$ 最优值取决于数据集、查询点
- 根据文献，建议$r = 4$
若要求近邻 $v \in B(q,R)$以不小于$1-\sigma$ 概率碰撞，则有
$\begin{align*} 1 - (1 - p(R)^k)^L & \geq 1 - \sigma \\ \Rightarrow L & \geq \frac {log \sigma} {log(1 - p(R)^k)} \end{align*}$
则可取
$L = \lceil \frac {log \sigma} {log(1-p(R)^k)} \rceil$
$k$ 最优值是使得 $T_g + T_c$ 最小者
- $T_g = O(dkL)$：建表时间复杂度
- $T_c = O(d |collisions|)$：精确搜索时间复杂度
- $T_g$、$T_c$ 随着 $k$ 增大而增大、减小

具体实现参考https://www.mit.edu/~andoni/LSH/manual.pdf

限制搜索空间

哈希表数量 $L$ 较多时，所有碰撞样本数量可能非常大，考虑只选择 $3L$ 个样本点
此时每个哈希键位长 $k$、哈希表数量 $L$ 保证以下条件，则算法正确
- 若存在 $v^{ }$ 距离待检索点 $q$ 距离小于 $r_1$，则存在 $g_j(v^{ }) = g_j(q)$
- 与 $q$ 距离大于 $r_2$、可能和 $q$ 碰撞的点的数量小于 $3L$
  $\sum_{j=1}^L |(P-B(q,r_2)) \cap g_j^{-1}(g_j(q))| < 3L$
可以证明，$k, L$ 取以下值时，以上两个条件以常数概率成立（此性质是局部敏感函数性质，不要求是 $E^2LSH$）
$\begin{align*} k & = log_{1/p_2} n\\ L & = n^{\rho} \\ \rho & = \frac {ln 1/p_1} {ln 1/p_2} \end{align*}$
$\rho$ 对算法效率起决定性作用，且有以下定理
- 距离尺度 $D$ 下，若 $H$ 为 $(R,cR,p1,p_2)$-敏感哈希函数族，则存在适合 (R,c)-NN 的算法，其空间复杂度为 $O(dn + n^{1+\rho})$、查询时间为 $O(n^{\rho})$ 倍距离计算、哈希函数计算为 $O(n^{\rho} log{1/p_2}n)$，其中 $\rho = \frac {ln 1/p_1} {ln 1/p_2}$
- $r$ 足够大、充分远离 0 时，$\rho$ 对其不是很敏感
- $p1, p_2$ 随 $r$ 增大而增大，而 $k = log{1/p_2} n$ 也随之增大，所以 $r$ 不能取过大值

Scalable LSH

Scalable LSH：可扩展的 LSH

对动态变化的数据集，固定哈希编码的局部敏感哈希方法对数据 动态支持性有限，无法很好的适应数据集动态变化
- 受限于初始数据集分布特性，无法持续保证有效性
- 虽然在原理上支持数据集动态变化，但若数据集大小发生较大变化，则其相应哈希参数（如哈希编码长度）等需要随之调整，需要从新索引整个数据库
在 $E^2LSH$ 基础上通过 动态增强哈希键长，增强哈希函数区分能力，实现可扩展 LSH

Posted 2019-07-13Updated 2019-07-13Math Mixin16 minutes read (About 2380 words)

Kernel Function

对输入空间 $X$ （欧式空间 $R^n$ 的子集或离散集合）、特征空间 $H$ ，若存在从映射 $$
  \phi(x): X \rightarrow H
  K(x,z) = \phi(x) \phi(z)
$$ 则称 $K(x,z)$ 为核函数、 $\phi(x)$ 为映射函数，其中 $\phi(x) \phi(z)$ 表示内积

特征空间 $H$ 一般为无穷维
- 特征空间必须为希尔伯特空间（内积完备空间）

映射函数 $\phi$

映射函数 $\phi$：输入空间 $R^n$ 到特征空间的映射 $H$ 的映射
对于给定的核 $K(x,z)$ ，映射函数取法不唯一，映射目标的特征空间可以不同，同一特征空间也可以取不同映射，如：
- 对核函数 $K(x, y) = (x y)^2$ ，输入空间为 $R^2$ ，有
  $\begin{align*} (xy)^2 & = (x_1y_1 + x_2y_2)^2 \\ & = (x_1y_1)^2 + 2x_1y_1x_2y_2 + (x_2y_2)^2 \end{align*}$
- 若特征空间为$R^3$，取映射
  $\phi(x) = (x_1^2, \sqrt 2 x_1x_2, x_2^2)^T$
  或取映射
  $\phi(x) = \frac 1 {\sqrt 2} (x_1^2 - x_2^2, 2x_1x_2, x_1^2 + x_2^2)^T$
- 若特征空间为$R^4$，取映射
  $\phi(x) = (x_1^2, x_1x_2, x_1x_2, x_2^2)^T$

核函数 $K(x,z)$

Kernel Trick 核技巧：利用核函数简化映射函数 $\phi(x)$ 映射、内积的计算技巧
- 避免实际计算映射函数
- 避免高维向量空间向量的存储
核函数即在核技巧中应用的函数
- 实务中往往寻找到的合适的核函数即可，不关心对应的映射函数
- 单个核函数可以对应多个映射、特征空间
核技巧常被用于分类器中
- 根据 Cover’s 定理，核技巧可用于非线性分类问题，如在 SVM 中常用
- 核函数的作用范围：梯度变化较大的区域
  - 梯度变化小的区域，核函数值变化不大，所以没有区分能力

Cover’s 定理可以简单表述为：非线性分类问题映射到高维空间后更有可能线性可分

正定核函数

设 $X \subset R^n$，$K(x,z)$ 是定义在 $X X$的对称函数，若 $\forall x_i \in \mathcal{X}, i=1,2,…,m$，$K(x,z)$ 对应的 Gram* 矩阵 $$
  G = [K(x_i, x_j)]_{m*m}
$$ 是半正定矩阵，则称 $K(x,z)$ 为正定核

可用于指导构造核函数
- 检验具体函数是否为正定核函数不容易
- 正定核具有优秀性质
  - SVM 中正定核能保证优化问题为凸二次规划，即二次规划中矩阵 $G$ 为正定矩阵

欧式空间核函数

Linear Kernel

线性核：最简单的核函数

$k(x, y) = x^T y$

特点
- 适用线性核的核算法通常同普通算法结果相同
  - KPCA 使用线性核等同于普通 PCA

Polynomial Kernel

多项式核：non-stational kernel

$K(x, y) = (\alpha x^T y + c)^p$

特点
- 适合正交归一化后的数据
- 参数较多，稳定
  todo
应用场合
- SVM：p 次多项式分类器
  $f(x) = sgn(\sum_{i=1}^{N_s} \alpha_i^{*} y_i (x_i x + 1)^p + b^{*})$

Gaussian Kernel

高斯核：radial basis kernel，经典的稳健径向基核

$K(x, y) = exp(-\frac {\|x - y\|^2} {2\sigma^2})$

$\sigma$：带通，取值关于核函数效果，影响高斯分布形状

高估：分布过于集中，靠近边缘非常平缓，表现类似像线性一样，非线性能力失效

低估：分布过于平缓，失去正则化能力，决策边界对噪声高度敏感

特点
- 对数据中噪声有较好的抗干扰能力
对应映射：省略分母
$\begin{align*} K(x, y) & = exp(-(x - y)^2) \\ & = exp(-(x^2 - 2 x y - y^2)) \\ & = exp(-x^2) exp(-y^2) exp(2xy) \\ & = exp(-x^2) exp(-y^2) \sum_{i=0}^\infty \frac {(2xy)^i} {i!} \\ & = \phi(x) \phi(y) \\ \phi(x) & = exp(-x^2)\sum_{i=0}^\infty \sqrt {\frac {2^i} {i!}} x^i \end{align*}$
即高斯核能够把数据映射至无穷维
应用场合
- SVM：高斯radial basis function分类器
  $f(x) = sgn(\sum_{i=1}^{N_s} \alpha_i^{*} y_i exp(-\frac {\|x - y\|^2} {2\sigma^2}) + b^{*})$

Exponential Kernel

指数核：高斯核变种，仅去掉范数的平方，也是径向基核

$K(x, y) = exp(-\frac {\|x - y\|} {2\sigma^2})$

降低了对参数的依赖性
适用范围相对狭窄

Laplacian Kernel

拉普拉斯核：完全等同于的指数核，只是对参数$\sigma$改变敏感性稍低，也是径向基核

$K(x, y) = exp(-\frac {\|x - y\|} {\sigma^2})$

ANOVA Kernel

方差核：径向基核

$k(x,y) = \sum_{k=1}^n exp(-\sigma(x^k - y^k)^2)^d$

在多维回归问题中效果很好

Hyperbolic Tangent/Sigmoid/Multilayer Perceptron Kernel

Sigmoid核：来自神经网络领域，被用作人工神经元的激活函数

$k(x, y) = tanh(\alpha x^T y + c)$

条件正定，但是实际应用中效果不错
参数
- $\alpha$：通常设置为$1/N$，N是数据维度

使用Sigmoid核的SVM等同于两层感知机神经网络

Ration Quadratic Kernel

二次有理核：替代高斯核，计算耗时较小

$k(x, y) = 1 - \frac {\|x - y\|^2} {\|x - y\|^2 + c}$

Multiquadric Kernel

多元二次核：适用范围同二次有理核，是非正定核

$k(x, y) = \sqrt {\|x - y\|^2 + c^2}$

Inverse Multiquadric Kernel

逆多元二次核：和高斯核一样，产生满秩核矩阵，产生无穷维的特征空间

$k(x, y) = \frac 1 {\sqrt {\|x - y\|^2 + c^2}}$

Circular Kernel

环形核：从统计角度考虑的核，各向同性稳定核，在$R^2$上正定

$k(x, y) = \frac 2 \pi arccos(-\frac {\|x - y\|} \sigma) - \frac 2 \pi \frac {\|x - y\|} \sigma \sqrt{1- \frac {\|x - y\|^2} \sigma}$

Spherical Kernel

类似环形核，在$R^3$上正定

$k(x, y) = 1 - \frac 3 2 \frac {\|x - y\|} \sigma + \frac 1 2 (\frac {\|x - y\|} \sigma)^3$

Wave Kernel

波动核

$k(x, y) = \frac \theta {\|x - y\|} sin(\frac {\|x - y\|} \theta)$

适用于语音处理场景

Triangular/Power Kernel

三角核/幂核：量纲不变核，条件正定

$k(x, y) = - \|x - y\|^d$

Log Kernel

对数核：在图像分隔上经常被使用，条件正定

$k(x, y) = -log(1 + \|x - y\|^d)$

Spline Kernel

样条核：以分段三次多项式形式给出

$k(x, y) = 1 + x^t y + x^t y min(x, y) - \frac {x + y} 2 min(x, y)^2 + \frac 1 3 min(x, y)^2$

B-Spline Kernel

B-样条核：径向基核，通过递归形式给出

$\begin{align*} k(x, y) & = \prod_{p=1}^d B_{2n+1}(x_p - y_p) \\ B_n(x) & = B_{n-1} \otimes B_0 \\ & = \frac 1 {n!} \sum_{k=0}^{n+1} \binom {n+1} {r} (-1)^k (x + \frac {n+1} 2 - k)_{+}^n \end{align*}$

$x_{+}^d$：截断幂函数 $x_{+}^d = \left \{ \begin{array}{l} x^d, & if x > 0 \\ 0, & otherwise \\ \end{array} \right.$

Bessel Kernel

Bessel核：在theory of function spaces of fractional smoothness 中非常有名

$k(x, y) = \frac {J_{v+1}(\sigma\|x - y\|)} {\|x - y\|^{-n(v + 1)}}$

$J$：第一类Bessel函数

Cauchy Kernel

柯西核：源自柯西分布，是长尾核，定义域广泛，可以用于原始维度很高的数据

$k(x, y) = \frac 1 {1 + \frac {\|x - y\|^2} {\sigma}}$

Chi-Square Kernel

卡方核：源自卡方分布

$\begin{align*} k(x, y) & = 1 - \sum_{i=1}^d \frac {(x_i - y_i)^2} {\frac 1 2 (x_i + y_i)} \\ & \frac {x^t y} {\|x + y\|} \end{align*}$

Histogram Intersection/Min Kernel

直方图交叉核：在图像分类中经常用到，适用于图像的直方图特征

$k(x, y) = \sum_{i=1}^d min(x_i, y_i)$

Generalized Histogram Intersection

广义直方图交叉核：直方图交叉核的扩展，可以应用于更多领域

$k(x, y) = \sum_{i=1}^m min(|x_i|^\alpha, |y_i|^\beta)$

Bayesian Kernel

贝叶斯核：取决于建模的问题

$\begin{align*} k(x, y) & = \prod_{i=1}^d k_i (x_i, y_i) \\ k_i(a, b) & = \sum_{c \in \{0, 1\}} P(Y=c | X_i = a) P(Y=c | x_k = b) \end{align*}$

Wavelet Kernel

波核：源自波理论

$k(x, y) = \prod_{i=1}^d h(\frac {x_i - c} a) h(\frac {y_i - c} a)$

参数
- $c$：波的膨胀速率
- $a$：波的转化速率
- $h$：母波函数，可能的一个函数为 $h(x) = cos(1.75 x) exp(-\frac {x^2} 2)$
转化不变版本如下
$k(x, y) = \prod_{i=1}^d h(\frac {x_i - y_i} a)$

离散数据核函数

String Kernel

字符串核函数：定义在字符串集合（离散数据集合）上的核函数

$\begin{align*} k_n(s, t) & = \sum_{u \in \sum^n} [\phi_n(s)]_u [\phi_n(t)]_u \\ & = \sum_{u \in \sum^n} \sum_{(i,j): s(i) = t(j) = u} \lambda^{l(i)} \lambda^{l(j)} \end{align*}$

$[\phin(s)]_n = \sum{i:s(i)=u} \lambda^{l(i)}$：长度大于等于n的字符串集合$S$到特征空间 $\mathcal{H} = R^{\sum^n}$的映射，目标特征空间每维对应一个字符串$u \in \sum^n$

$\sum$：有限字符表

$\sum^n$：$\sum$中元素构成，长度为n的字符串集合

$u = s(i) = s(i1)s(i_2)\cdots s(i{|u|})$：字符串s的子串u（其自身也可以用此方式表示）

$i =(i1, i_2, \cdots, i{|u|}), 1 \leq i1 < i_2 < … < i{|u|} \leq |s|$：序列指标

$l(i) = i_{|u|} - i_1 + 1 \geq |u|$：字符串长度，仅在序列指标$i$连续时取等号（$j$同）

$0 < \lambda \leq 1$：衰减参数

两个字符串s、t上的字符串核函数，是基于映射$\phi_n$的特征空间中的内积
- 给出了字符串中长度为n的所有子串组成的特征向量的余弦相似度
- 直观上，两字符串相同子串越多，其越相似，核函数值越大
- 核函数值可由动态规划快速计算（只需要计算两字符串公共子序列即可）
应用场合
- 文本分类
- 信息检索
- 信物信息学

常用不等式

Cauthy-Schwarz 不等式

常用等式

常用定理

Lucas 定理

Holder 定理

距离函数

距离

Bregman Divergence

单点距离

Minkowski Distance

Mahalanobis Distance

LW Distance

Hamming Distance

Embedding

Jaccard 系数

Consine Similarity

欧式距离

点到平面

Functional Margin 函数间隔

Geometric Margin 几何间隔

Levenshtein/Edit Distance

组间距离

Single Linkage

Average Linkage

Complete Linkage

Hashing

Hash Function

数据相关性

应用

哈希函数

单值输入

序列输入

加法哈希

位运算哈希

乘法哈希

定长序列

Universal Hashing

性质

例

Locality Sensitive Hashing

LSH查找

思想

概率放大

搜索近似最近邻

基于汉明距离的 LSH

设计哈希函数族

基于 Jaccard 系数的 LSH

定义 Min-hashing 函数族

Min-hashing 实现

Exact Euclidean LSH

p-stable 哈希函数族

p-stable 哈希函数碰撞概率

性质、实现

限制近邻碰撞概率

限制搜索空间

Scalable LSH

Kernel Function

Kernel Function

映射函数 $\phi$

核函数 $K(x,z)$

正定核函数

欧式空间核函数

Linear Kernel

Polynomial Kernel

todo

Gaussian Kernel

Exponential Kernel

Laplacian Kernel

ANOVA Kernel

Hyperbolic Tangent/Sigmoid/Multilayer Perceptron Kernel

Ration Quadratic Kernel

Multiquadric Kernel

Inverse Multiquadric Kernel

Circular Kernel

Spherical Kernel

Wave Kernel

Triangular/Power Kernel

Log Kernel

Spline Kernel