Posted 2021-04-06Updated 2021-08-04ML Specification / FinTech / Risk Control14 minutes read (About 2082 words)

风险控制

欺诈风险

欺诈：以故意欺瞒事实而诱使对方发生错误认识的故意行为，通常目的是使欺诈者获利
- 欺诈的行为要素
  - 使人发生错误认识为目的
  - 故意行为
- 欺诈可以分为
  - 冒用：冒用他人身份，通过生物信息技术等容易发现
  - 伪装：伪造部分信息，相对而言更难识别
- 金融领域“资金就是生产资料”使得欺诈者的非法获利更容易

https://zhuanlan.zhihu.com/p/31708263

欺诈事件

白户：账户信息缺失，没有足够数据对借款人进行风险评估
- 内部白户：新注册、无申贷历史记录
- 外部白户：人行征信、三方征信无覆盖
黑户：账户存在逾期、失信、欺诈记录
- 内部黑户：历史订单逾期
- 外部黑户：人行征信、三方征信黑
- 论坛、公开渠道监控
恶意欺诈：账户通过伪造资料、蓄意骗贷
- 伪造账单流水记录骗取更高额度
- 恶意欺诈账户可能涉及不良嗜好，如黄赌毒等
身份冒用：伪冒他人身份进行欺诈骗贷
- 熟人冒用
- 他人盗用
- 一般可通过信审、人脸识别、活体验证核验借款人身份
以贷养贷
- 放大共贷风险杠杆
- 可通过三方征信机构的多头借贷产品识别
中介欺诈：黑中介哄骗或招揽客户实施骗贷
- 黑中介利用风控漏洞大规模攻击，造成大量资损
传销：有组织的开展收费并发展多级下线，存在集中骗贷风险
- 存在老客拉新，从关系网络上具有明显星状结构

欺诈者身份

第一方欺诈：欺诈者用真实身份进行欺诈
- 严格来说不是欺诈，没有在身份信息上误导平台
- 应对措施
  - 黑名单
第二方欺诈：企业、渠道内员工进行内部欺诈、内外勾结
- 即巴塞尔协议操作风险中的内部欺诈
- 应对措施
  - 内控：权限获取合理、流程上风险分散、操做可追溯
第三方欺诈：非欺诈者自身、企业内部的第三方欺诈
- 名义借贷者身份信息通过黑色产业链购买、养号，作为黑产军团的一个链条
- 申请欺诈
  - 账户盗用
  - 资料造假
  - 恶意违约
- 交易欺诈
  - 账户冒险
  - 养卡
  - 套现
- 应对措施
  - 对抗性强、低侵入、性价比各种能力和技术
  - 社交网络发现
  - 数据交叉对比
  - 模型客户用户画像

获取非法收益的时间

First Payment Default 首轮欺诈
- 首期失联
Bust-out 余额欺诈
- 短时间将授信刷高再获利离场

收益来源环节

单个客户利润 = 贷款收益 - 资金成本 - 信用成本 - 获客成本

获客成本 - 税收成本

骗贷：信用成本中的风险成本
羊毛：获客成本中的补贴
刷量：获客成本中的广告费
虚假短信：运营费用中的短信流量费

得利方、损失方

C骗C：在互金领域不多
- 即使是P2P，也会有平台兜底
B骗C
C骗B
B骗B

反欺诈

防范欺诈的重要障碍是欺诈难以标注，是通过贷后表现推断贷前意图
- 一般只有真正联系到本人或失联，很难有足够证据证明是欺诈导致的逾期，而不是信用导致逾期
- 欺诈导致逾期往往有以下特征
  - 首逾：最常作为欺诈指标
    - 对第一方、第三方欺诈，往往会发生首逾
    - 对第二方欺诈，考虑到内部人员的考核、规避等原因，有可能会正常还款1到2期，此类欺诈较难认定
  - 催收追回率更高
反欺诈调研步骤
- 风险事件发现：具有敏锐的风险嗅觉，发现可疑事件
- 欺诈场景还原：广泛收集各渠道信息还原欺诈场景，调研分析背后可能原因
- 风险规则提炼：从欺诈场景中提炼相应专家规则，拦截欺诈
- 技术算法支持：搜集相应数据，根据数据类型和场景特点寻找合适算法识别欺诈
反欺诈除了常规的策略部署外，还需要考虑人性：延迟模型和规则的效用
- 抓大放小：允许小资损，随机抽取小比例的欺诈者通过
  - 隐藏防控点，用于积累黑名单
  - 迷惑欺诈团伙
- 虚假额度：设置虚假授信额度，但借口其他理由不放款

https://zhuanlan.zhihu.com/p/96778969

https://zhuanlan.zhihu.com/c_147252758

调研欺诈风险渠道

实时大盘监控：适合识别黑中介风险、传销风险等团伙欺诈
- 设备聚集性风险 LBS、WIFI
- 地域欺诈风险，如朋克村
信审催收反馈
- 通过电话外呼、核验用户身份、咨询借款动机，根据用户反应发现身份伪冒
论坛舆情监控
- 对相关论坛、讨论组等检测仪监控，发现市场动向
- 理解欺诈人群的心理特征、社会身份
黑产卧底调研
- 线上加入相关社区，站在欺诈账户立场上，找寻风控系统弱点
- 线下去欺诈案件多发地，实地调研、学习黑产手法

反欺诈专家规则

针对网贷黑中介识别的风险规则
- 中介通讯录长常常会存储客户号码，并加以备注
- 因为需要联系客户，运营商数据中往往会留下痕迹
- 中介网贷申请手法更熟练，在申请页面停留时间短
- 使用网络可能包含“网贷”等敏感信息
- 人脸活体验证时存在照片翻拍、视频通话
对反欺诈规则同样可按照一般规则进行评价
- 规则欺诈命中次数、命中率
  - 规则欺诈命中次数 = 命中触发报警之后被认定为欺诈次数
  - 欺诈命中率 = 规则欺诈命中次数 / 规则报警次数
- 综合欺诈命中次数
  - 综合欺诈次数 = 规则欺诈命中次数 + 逾期调查认定欺诈数
  - 综合欺诈命中率
- 考虑到欺诈逾期特征，可以把首逾、催收回账户重点调查

专家规则有高准确率的优点，但是覆盖的人群有限，性价比低，过多会导致规则集冗长，不利于维护

反欺诈算法

应用方向
- 辅助调查人员从单个案件的调查上升到对团体的调查，提高人工审核效率
- 通过用户之间的关联关系，给调查人员提供更多分析线索
算法研究方向
- 基于社交网络的模型
  - 基于通讯录、运营商数据，采用基于图的社区发现算法
- 基于无监督聚类的模型
- 知识图谱
- Embedding 特征构建
  - 基于埋点行为数据，生成 Embedding 特征
- 文本分类
  - 基于论坛文本、通讯录名称、WIFI 名称分类

First Payment Deliquency模型

FPD 模型：以首逾作为目标变量建立模型
- 假设：欺诈者动机是骗钱，那么第一期就会逾期
- 入模变量一般是负面特征
  - 安装负面 App 数量
  - 历史逾期次数
基于欺诈的还款表现作为理论支撑，但是也存在一定缺陷
- 逾期标签存在滞后性，首逾标签存在至少一个月，不利于快速响应
- 放贷样本同总体有偏，在其上训练模型存在偏差，会低估风险

信用风险

Posted 2021-01-11Updated 2021-07-16ML Specification / FinTech / Risk Control18 minutes read (About 2745 words)

风控规则

规则的类型
- 条件判断：决策路径独立
- 决策表：决策路径有交集、规律
- 决策树：决策路径不规律、可能重复检查同一数据

规则引擎：接受数据输入，解释业务规则，根据业务规则、使用预定义语义做出业务决策

制定原则

监管、公司政策类
- 年龄准入
- 行业准入
  - 有金融属性行业
  - 政策敏感娱乐行业
- 地域准入
- 场景准入
风控层面
- 黑名单类
- 多头类：申请次数
- 共债类：申请量
- 反欺诈类
- 评分拒绝类

规则发现

规则评分

强弱规则
- 强规则：可作为独立规则，直接指导决策
- 弱规则：具有一定区分度，但不决定性
弱规则可组合使用，通过评分方式衡量弱规则
- 使用规则评分衡量规则影响力
- 规则影响力则可以通过命中坏占比、odds变动衡量
- 设置阈值，命中规则的评分之和超过阈值才触发报警

笛卡尔积法

步骤
- 获取变量：定义好坏，关联特征变量
- 变量筛选：通过IV值等指标快速筛选变量
- 指标统计：分组统计申请量、放款量、坏账量等指标
- 透视呈现：分申请率、放款率、坏账率等指标制作交互，如列联表等
- 规则提取：结合各维度选择满足要求的组别，提取规则逻辑
- 规则评估：评估跨期稳定性
- 策略上线

决策树法

决策树法优势
- 可根据划分依据自动对人群细分
决策树法缺陷
- 难以调整决策树划分结果
- 划分结果可能缺乏业务意义
- 可能出现过拟合现象

规则阈值设置

阈值设置指标
- Lift 值
- 收益/风险比
阈值设置依据
- 对分类取值，根据 Lift 值、收益/风险比 确定是否作为规则
- 对有序、数值取值，结合不同阈值点计算 Lift 值、收益/风险比，绘制曲线
  - 曲线平缓变化，则阈值切分收益变化稳定，阈值调整空间比较大
  - 曲线存在明显陡、缓变化，则阈值切分收益在拐点处收益较大，阈值调整空间有限

规则评价

案件调查
- 用信前报警调查
- 逾期后调查
- 根据不同目标，可以对不同的案件区分重点调查

线下 / 离线（标签已知）效果评估

自身效果评估
- 混淆矩阵
  - TPR/FPR
  - 准确率/误拒率
- 提升度
  - 拒绝样本中坏样本Lift提升度
  - 通过样本中好样本Lift提升度
- 通过率、拒绝率
- 加权收益：好数量 好收益 + 坏数量 坏收益
对比/增量效果评估：和其他数据源比较
- 有效差异率：查得命中 / 其他通过且为坏样本
- 无效差异率：查得命中 / 其他拒绝

类似名单类数据评估

线上 / 在线（标签未知）效果评估

规则报警次数、报警率
- 规则（触发）报警次数：命中规则后账户被拒绝次数
  - 对强规则，即为规则命中次数
  - 对弱规则，小于规则命中次数
- 规则报警率 = 规则报警次数 / 规则命中次数
- 规则报警率低、趋势走低表明规则需修正
规则调查次数、调查率
- 规则调查次数 = 对案件调查分析时调查其次数（短路调查）
- 规则调查率 = 规则调查次数 / 规则报警次数
- 调查率低则因考虑其他规则替代该规则，或or合并规则
- 规则可以为调查提供提示，而过多不能给调查提供提示的规则反而浪费时间
规则命中次数、命中率
- 规则命中次数 = 命中触发报警之后被认定为坏样本数
- 规则命中率 = 规则命中次数 / 规则报警次数
综合命中次数
- 综合命中次数 = 规则命中次数 + 逾期调查认定坏样本数
- 综合命中率 = 综合命中次数 / 规则报警次数

在线效果效果是无法在体系内自评估的，必须引入外部信息，包括：人工审核、额外数据源、扩招回机制等

规则稳定性

通过率波动应对

寻找通过率变动的时点
计算各维度通过率波动程度PSI
- 定位各策略节点主次影响
- 分析主要影响策略节点规则、阈值
指导决策

逾期率波动应对

定位逾期率波动客群：存量客户、新增客户
- MOD

旁路规则

Swap Set Analysis

新、旧模型可用离线指标比较优劣，但最终要在业务中比较通过率、坏账率，二者正相关，swap set 则是反应模型的通过的变化

Swap Set Analysis 用于分析新、旧模型更替
- 根据订单在新、旧模型的通过情况，可以分为三类
  - Swap-in Population：旧模型拒绝但新模型接受
  - Swap-out Population：旧模型接受但新模型拒绝
  - No Change：新、旧模型同时接受、拒绝
- 从 swap set 角度评价 “新模型优于旧模型”
  - Swap-in Population >= Swap-out Population 且坏账率不升
  - Swap-in Population = Swap-out Population 、坏账率不变，但用户响应率提升
实务中，已上线的旧模型拒绝订单无法获取表现期，只能通过拒绝推断近似得到坏账率
- 同时间窗 A/B-Test：切分流量让旧模型只打分不拒绝
- 跨时间窗 A/B-Test：用旧模型在灰度期坏账率替代

扩召回

扩召回：独立召回之外，利用额外模型扩召回部分样本

此处召回一般指通过成熟的规则、模型从全体中获取部分样本
- 召回一般为历史沉淀、专家经验规则
- 召回的理由充足，但泛化性较差
扩召回和二次排序训练用的样本是相同的，但
- 二次排序是在召回的样本基础上再次排序
  - 目标：（全局）排序能力
  - 评价标准：AUC、头部准召
- 扩召回一般是独立于召回建立的模型
  - 目标：学习召回样本的规律，完善召回机制、补充召回样本
    - 因此，扩招回也可以用召回样本作为正样本
    - 扩召回也可用于在线验证新、旧规则的有效性
  - 评价标准：额外召回准确率（对召回样本的学习能力）
    - 事实上，若采用召回样本作为正样本，则 AUC 为 1 的扩召回是无价值的，只是复现了召回
  - 特征：可能包含一些专供于扩召回使用的特征
  - 扩召回的正样本可能还包括人工举报、隐案等

准入规则

风控准入规则应为强拒绝规则
- 不满足任何规则均会被拒绝
- 规则无需经过复杂的规则衍生
- 策略理念：验证借款人依法合规未被政策限制
- 风控流程中首道防线
  - 准入策略已经趋同
  - 但对不同信贷场景仍应采取更适应业务的准入规则

基础认证模块

风控基础认证模块：验证申请人真实性
- 身份证信息验证
- 人脸信息验证
- 银行卡四要素验证
- 运营商三要素验证

按数据来源分类

个人信用类
- 个人基本信息
  - 年龄准入
  - 地区准入
  - 行业准入
- 经济能力信息
  - 月收入
  - 流水
- 社交信息
设备信息
- 短信
- APP安装信息
外部数据源
- 征信报告
- 外部黑名单
行为数据
- 活动轨迹
- 登录、注册时间
评分卡规则

黑、白名单

白名单

白名单：风险相对可知可控的客户构成的内部名单
- 业务初期：通过白名单控制入口
  - 控制放量节奏
  - 降低风险
  - 通过宽松风控规则提高审批通过率
  - 通过贷前策略规则筛选白名单，协助调整贷前策略
- 业务中期：部分客户走特殊的贷前审批流程，满足特殊审批要求
白名单筛选方式：有部分存量数据情况下
- 联合建模：缺乏特定业务场景预测变量，与外部机构建模补充预测变量
- 内部数据探索：寻找与违约表现相关性较强的特征规则
  - 类似场景、产品
  - 纯粹凭借专家经验规则
- 引入外部数据匹配

黑名单

黑名单：还款能力、还款意愿不能满足正常客户标准
- 通常多个好客户才能覆盖坏客户的本金损失
- 通过黑名单客户全部拒绝，但是对于导流助贷机构，业务核心是流量和客户质量，拒绝全部黑名单客群成本巨大，可能会随机、结合评分放过部分
黑名单建立
- 建立黑名单参考维度
  - 还款表现
  - 渠道
  - 利率
  - 失信名单
- 黑名单主体
  - 身份证
  - 手机号
  - 邮箱
  - 银行卡
  - IP

三方黑名单

自建黑名单命中率不高（二次申请概率低），且需要长期积累
不同三方黑名单往往会有其侧重点
- 团伙欺诈名单
- 公安、司法名单
- 被执行人名单
三方黑名单效果也有好有坏，对效果较差、但通过率影响不大黑名单也可以考虑保留
- 黑名单一般是查得收费，外挂较多黑名单不会提升成本
- 黑名单可视为容错机制，黑名单不一定能所有样本上表现优秀，保留其可防止欺诈团伙等集中攻击
同样值得注意的是，黑名单的质量需要考核
- 非公信黑名单定义各家不同
- 名单没有明确的退出机制
- 黑名单按查得收费，有些黑名单会掺沙子
- 有些名单提供商同时作为信贷放贷方，有动力将优质客户截留，将其添加进名单

Posted 2021-01-11Updated 2021-01-11ML Specification / FinTech / Risk Control19 minutes read (About 2904 words)

风险管理

互金风控

互金相对传统金融风控有更多挑战
- 模型迭代速度要求高
  - 互金市场波动剧烈
  - 长尾劣质客群更不稳定，容易导致样本波动
- 数据源采集种类更多
  - 弱相关数据更多，处理难度更大
  - 政策合规要求，数据采集和使用更规范
风控技术无关强弱，关键只在于“是否有效”
- 时机选择
- 制度安排及辅助
- 背后所驱动的支撑逻辑
风控领域，大数据等技术的应用场景和方向
- 自动化，尽量减少人工干预，减少主观臆断
- 实现“差异化”，客制化产品设计
  - 补全客户画像
  - 挖掘客户需求
- 精准度，需要模型驱动
  - 交易成本评估
  - 差异化定价
  - 反欺诈
- 创新型评估
  - 底层数据共享

风控策略

风控策略本质是规则集的逻辑组合
- 在贷前审批阶段减少风险事件发生
- 挽回风险事件发生的造成的损失
- 筛选用户：过滤高风险用户t保留低风险用户
- 对客群分级实行个性化审批流程，提高审批效率
广义看，策略也是一种模型
- 模型通过算法挖掘数据学习规律、构造特征；而策略则是结合具体业务场景，依赖人工经验对客群细分，如决策树、笛卡尔积分群
- 模型往往经过长时间稳定性验证，只有出现明显衰减时才会触发迭代；策略上线、下线灵活，可以根据近期样本灵活调整
- 模型需要在策略中应用才能发挥效果

风险控制

信用风险：侧重风险管理，在风险和收益之间寻求平衡，追求利润最大化
- 通过金融属性数据识别客户还款能力、意愿
欺诈风险：侧重严防拒绝，属于欺诈必然拒绝
- 跟进欺诈风险事件，快速响应
反欺诈和信用顺序各有优劣，但是应该都做完之后得到综合授信决策
- 反欺诈在后：欺诈后需要人工核验，处于成本考虑后置
- 信用在后：希望进入模型的数据更真实，否则会欺骗模型造成错误决策

模型风险

模型：应用统计、经济、金融或数学理论、技术和假设将输入数据处理为定量估计的量化方法、系统或途径

模型风险来源
- 模型自身错误：模型设计、开发以及IT实施时发生的错误
  - 统计理论应用错误
  - 目标变量错误
  - 样本选择错误
  - 变量挑选、衍生错误
  - 算法错误
  - 在信息系统中执行与开发不一致
- 模型被不恰当的使用
  - 模型套用
  - 市场环境、消费者行为习惯发生重大变化
美国监管部门围绕“有效挑战”指导原则，建立模型风险监管体系
- 动力：挑战者必须在组织上相对独立于模型开发者，有正向激励挑战
- 胜任力：挑战者具备相关专业知识和技能
- 影响力：挑战者必须具备权威、组织内地位，来自更管理层的承诺和支持，保障被挑战方对其意见有足够重视

https://mp.weixin.qq.com/s/95MVhXgyG9h5KqRphP14cA

风险监管体系框架

第一防线
- 模型开发者：开发、上线、使用、监控和维护模型，配合模型验证部门的独立验证工作
- 管理维护者
- 使用者
第二防线
- 模型验证部门：独立验证模型
- 模型风险监管部门：草拟、执行模型风险管理政策
第三防线
- 内部审计：评估模型风险管理是否完整、严谨、有效
外部防线：政府监管
- 美联储
- 美国货币监理署

风险监管具体要求

Model Inventory模型清单

模型状态
模型目的、设计的目的产品、预期和实际使用的场景、使用限制
输入数据、组件的类型和来源
输出及其预期用途
模型运行状态、更新时间、政策例外
开发、验证负责人
已完成和计划当中的验证目的
有效期

Model Development模型开发

明确模型目的
- 设计、理论、逻辑的研究支持
- 模型组件、算法的优缺点
- 与其他理论方法的比较
评估数据质量
- 证明数据、信息适合模型
- 替代数据需证明、记录
- 对必要的数据跟踪分析，尤其是外部数据、新客群、新产品
测试确保符合预期
- 准确性
- 鲁棒性
- 稳定性

Model Implementatioin and Model Use

模型实施的需要有严谨的校验规范，保证上线模型与开发模型一致
- 结果（包括中间结果）一致
- 底层数据一致
- 计算逻辑一致
模型使用可以进一步评估模型性能
- 模型使用者反馈模型使用情况、业务契合度
- 业务经理评估模型背后的方法、假设
- 其他利益不相关部门建议
模型的业务决策报表应清晰易懂
- 决策者和建模者知识背景可能不同
- 需要包含足够的输入、输出示例，充分展示模型各个维度

Model Validation

模型验证须由专业、独立的模型验证团队执行
- 有动力
- 有胜任力
- 有影响力
验证范围须包括模型所有组件
- 输入
- 处理
- 报告
验证的严格性、复杂性应与以下相适应
- 模型使用量
- 模型复杂性
- 模型重要性
- 业务规模和复杂性

模型验证分类

Initial Validation初始验证：首次使用前的验证
- 根据模型的缺陷选择是否接受
- 由于其他原因无法验证，应该记录在案，并通过其他补偿性控制减轻模型不确定性
On-going Validation持续验证：模型投入使用后持续进行的验证
- 跟踪已知问题并识别任何新的问题
- 确保市场、产品、风险敞口、活动、客户、业务实践不会造成新的模型问题
Model Review定期复查
- 确定模型是否正常工作且现有的验证活动是否足够

验证框架要素

概念健全性评估：模型设计、构造的质量
- 审查相关文件与实践证据，确保模型设计、建造中使用的方法、判断、变量选择有充分信息、经过仔细考虑，且与已发表的研究和成功行业实践一致
结果分析，比较模型输出与实际结果，分析模型性能
- 各种量化、非量化的测试分析技术都有弱点，应根据模型选择适当、一系列结果分析
- 量化结果有助于评估判断专家判断的质量、新旧模型性能差距
- 结果分析应持续进行
- 除用保留样本（训练样本时间段内）分析模型性能外，还需要使用训练样本时间段外样本进行back-testing
敏感性分析，检查模型的稳定性、鲁棒性

Model Monitoring

模型监控频率应与模型性质、新数据或建模方法的可用性，涉及的风险程度相匹配
开发阶段发现的模型局限应在持续监控中定期评估
Processing Verification过程检验，检查所有模型组件是否按设计运行
Benchmarking基准检验，与外部数据、模型进行比较

贷后管理

入催：当前逾期
- 忘记还款日逾期：轻微提醒即还款
- 习惯性逾期：轻微提醒、人工催收提醒即还款
- 资金困难，还款能力低：普遍回款率低
  - 多头借贷高负债：还款意愿低，需要较强催收策略
  - 暂时失去收入能力：还款意愿不差，但出催时间较久
- 有还款能力但不还：需较强催收策略提高还款意愿
- 欺诈：首逾，贷后没有解决办法
出催：结清逾期账单

AB-Test划分客户

步骤
- 为各类客户设置有针对性的特别催收策略
- 结合模型、规则初步初步设置筛选条件
  - 筛选出该类型客户
  - 将该类型客户分群A、B组
- 在A组应用一般催收策略、在B组应用针对性策略，比较策略出催效果
  - 针对性策略确定情况下，评估客户筛选条件
  - 客户筛选条件给定的条件下，评估针对性策略

M1客户

对大部分公司的客群而言，M1阶段出催概率最大
- 此阶段较为重要，可设置多个模型重点学习不同客群规律
- 对不同客群施行不同催收策略，提高出催成功率
缓催响应人群：出于遗忘造成的逾期
- 在较短的缓催期内，简单的催收动作、或不催收即出催，降低人力成本
  - 不催
  - 短信提醒
  - 邮件提醒
  - 机器人催收
- 对缓冲人群内部，可以通过不断AB-Test细分缓催人群
  - 在不同时间段设置不同缓催方式
  - 为不同人群设置不同缓催方式
非缓催人群
- 按出催难易程度，区分为普通案件、专家案件（难催用户）
  - 难催客户入催早期还款概率远高于后期，在入催初期即交由经验丰富
- 对还款能力、还款意愿分析，应用不同话术和催收策略
  - 还款能力、还款意愿分析主要是根据特征变量设置
  - 对还款能力差而还款意愿强的客户，可通过延期等方式提升用户体验
  - 对还款意愿弱的客户，通过催收动作提高还款意愿
- 对催收敏感程度分析
  - 对催收动作敏感的人群，即催收动作越强，还款概率越高，可以加强催收频率

rc_collection_m1

M2+客户

M2+客户催出概率较低
- 若无特殊原因影响，发生过M2+用户需要重点关注
  - 委外处理会损失资金
  - 通过模型预测更易出催的客户，精细化人力管理
- 为精细化催收可以构建多个阶段模型
  - 样本充足的情况下可以分别构建M2、M3模型
  - 样本不够时，则可以构建M2+模型，不断积累决策、建模样本
- 分析出催难易程度、催出敏感程度不同的客群，施行不同催收策略

rc_collection_m2+

Posted 2021-01-11Updated 2021-07-16ML Specification / FinTech / Risk Control32 minutes read (About 4742 words)

风控中数据分析

数据质量

特征数据挖掘

确定分析目标
假设分析
- 对问题提出可能的假设
- 评估假设的分析过程
特征获取、关联分析
- 找出信息片段之间直接、间接联系
- 已知信息片段，寻找直接、间接联系的信息片段
假设验证、模式归纳
- 根据分析结论评估假设
- 归纳规律特点

统计类特征构造

RFM 特征框架思想是构造统计类特征的基础
- Recency：最近一次间隔
- Frequency：最近一段时间次数
- Monetary：最近一段时间金额
结合业务统计、分析数据
- 了解数据采集逻辑
- 定义观察期有效性
  - 不同用户的数据厚薄程度（实际观察期长短）可能不同
统计类特征构造方式
- 数量统计类特征
- 占比统计类特征
  - 去除量纲影响
  - 衡量用户行为偏好：时间偏好、类别偏好
- 趋势统计类特征
  - 一般通过斜率衡量变化趋势
- 稳定性衍生特征
  - 变异系数

特征变量评估

compliant 合规性
- 法律允许
- 来源可靠
stable 稳定性
- 数据采集稳定性
- 特征变量稳定性
  - 数据源采集稳定是变量稳定性的基本前提
  - 变量是模型的基础，数据不稳定必然导致模型稳定性差
available 可得性
- 数据未来是否可以继续采集、计算
- 涉及产品设计流程、用户授权协议、合规需求、模型应用环节
  - 业务流程更改导致埋点数据弃用、数据采集后移
  - RFM特征时间窗口支持
interpretable 可解释性
- 数据是否具有明确、清晰的业务含义，便于理解
logical 逻辑性
- 不容易绕过，逻辑上应该被采用

外部数据业务指标

外部数据：三方平台根据自身业务场景所积累的数据，经脱敏加工后对外输出，主要包括上述的信贷类数据、消费类数据

性价比
- 结合技术、业务效果、数据价格，综合计算性价比
- 计价方式
覆盖范围
- 覆盖率
- 查得率：能匹配用户数/总用户数

名单类数据

自身效果评估
- 混淆矩阵
  - TPR、FPR
  - 准确率/误拒率
- 提升度
  - 拒绝样本中坏样本提升度
  - 通过样本中好样本提升度
- 通过率、拒绝率
对比/增量效果评估：和其他数据源比较
- 有效差异率：查得命中 / 其他通过且为坏样本
- 无效差异率：查得命中 / 其他拒绝

线下带标签场景的评估

数据描述

Exploratory Data Distribution 数据分布
- 样本与总体分布应大致相同，则样本分布应保持稳定，因此各特征统计值更应保持稳定
- 按照自然月、特征维度，分析特征统计值变动
Missing Rate 缺失率
- 缺失成因：随机缺失、系统性缺失
- 缺失变动：特征缺失率持续升高，则预期未来数据采集率下降
Unique Value
- 若某固定值占比过高，则变量区别度往往很低
特殊值检查
- 缺失值如何表示
- 零值的业务含义

稳定性

PSI：测试集、训练集间
- 比较训练集、测试集变量的波动性
- 无法反应细节原因，还需要 EDD 上分析

信息量

Coefficient of Variation 变异系数
- 过小则区分度差
- 过大可能不稳定
IV 值
- 评估变量预测能力
- IV值过高时注意信息泄露问题
RF/XGB 特征重要性
- 适合快速筛选特征
- 此重要性只有全局可解释性，无法对单个案例做出解释

信息重复

Variable Cluster 变量聚类：评估聚类意义上变量的“接近”程度
- 层次聚类
Linear Correlation 线性相关性：评估变量间的线性相关性
- Pearson Correlation Coefficient
- 变量若通过WOE方式参与建模，则可以使用WOE值计算相关系数
Multicollinearity 多重共线性
- VIF
变量显著性
- p-value

建模（线性）中应该避免是参与建模的变量之间过强的线性相关，所以应该检查的是参与建模变量之间的线性相关

变量衍生值、原始值相关性不一致是衍生非线性导致，不应减弱使用衍生值变量检查的合理性

样本数据质量

代表性（狭义）
- 数理统计最基本逻辑链是通过样本推断总体，因此样本对总体代表性决定推断上限
- 根据标目标客群、好坏比例采样、赋权
  - 简单随机抽样，保持内部真实客群、好坏比例
  - 客群分层抽样，适应不同客群
  - 好坏不等比抽样，建模之后再按权重还原，充分捕捉坏样本特征
稳定性
- 可用各 Vintage 内坏占比、lift 值、odds 等指标 PSI 衡量
- 样本稳定性决定推断结果稳定性
- 样本客群应该足够稳定，受节假日、周期影响小
连续性
- 样本时间连续便于建模中划分训练集、测试集（避免数据穿越）

特征分类

还款能力
- 收入：自填、三方
- 负债：内部负债、外部负债、多头借贷
- 学历：自填、三方
还款意愿
- 申贷行为：申贷记录、贷前贷后申贷行为变化
- 履约行为：还款记录、逾期记录
- 催记行为：催收记录

贷前数据

主动数据/表填信息：客户主动提供
被动数据：主动采集

资质、标签类数据

客观数据：无第三方欺诈情况下可信
- 性别
- 年龄
- 身份证号
- 手机号
- 手机号在多少个平台用户的通讯录中有存储
- 手机号归属地
- 户籍地址
- 户籍地址是否来自非城市：除一线城市外，用身份证地址是否包含“村”判断
- 银行卡号
- 银行卡发卡行
- 签发机关
主观数据：不可信，可对这部分数据做交叉验证，检查是否前后矛盾
- 紧急联系人号码
- 紧急联系人消息
- 紧急联系人是否为平台用户
- 学历
- 工作
- 月收入
- 公司
- 负债
- 地址
- 紧急联系人手机号归属地是否和账户手机号归属地一致
- 手机联系人手机号归属地是否和申请人户籍地一致

信贷类数据

人行征信报告
三方征信数据：通过各机构贷前审批、贷后管理等记录
- 收入数据
- 负债数据
  - 多头负债
  - 共债
- 多头借贷数据
- 黑名单
- 信用评分
- 原始数据（极少）

生活行为类数据

消费行为：资金用途，是否专款专用、不良用途
- 信用卡、借记卡账单和流水
- 电商消费记录数据
收入能力：收入直接影响还款能力
- 流动资产：工资、公积金
- 固定资产
出行行为数据
短信通道：识别内容，提取放款、逾期、催收等特征
支付通道：通过支付代扣记录，提取用户收入、支出等现金流
手机输入法：识别内容，提取全方位信息

设备行为类数据/埋点数据

埋点数据量庞大而杂乱
- 需要结合业务逻辑分析，从账户角度思考，挖掘有用的特征
行为类数据为弱金融属性数据，多用于交叉验证
- GPS与手机号归属地一致
- IP与GPS所在城市是否一致
- IP与手机号归属地是否一致
- 工作时间的LBS是否与公司地址一致
- 非工作时间的LBS是否与家庭地址一致

埋点数据：在有需要的位置采集相应的信息

https://zhuanlan.zhihu.com/p/53812343

设备特征

设备恒定特征
- 是否root
- 是否hook
- 是否为实体手机
- 是否为一键新机
- 是否为二手手机：欺诈更倾向于使用二手手机
  - 系统文件
  - 是否恢复出厂设置
- 品牌
- 价格
- 操作系统
- 设备迁移方向
设备易变特征
- 传感器参数：在互联网反欺诈中，常用于侦测非实体手机，而金融场景中更多是真机
  - 角度传感器
  - 压力传感器
- 电压、电量：手机电压、电量呈上升趋势，表示账户资金需求更急迫

行为数据

活动轨迹：取决于埋点的精细程度
- 夜间申请
- User-agent
- 点击次数
  - 申请前次数低于大盘：账户对产品了解，意图明显
  - 授信后点击次数过高：账户对产品有犹豫
- 激活+粘贴
  - 正常申请流程中较少存在中途退出申请的必要
  - 而中介更可以多次切换应用，复制粘贴
- 截图
  - 中介更有可能截图制作教程、展示流程等
- 时间间隔：更适合作为欺诈模型参数
  - 注册到申请
  - 登录到申请
  - 各申请步骤
  - 申请到完成
  - 授信到用信
  - 上次申请与本次申请时间间隔
- 切换设备登陆
- 身份证提交次数
内容偏好

环境信息

LBS信息：可以提高观察粒度保证容错率
- GPS所在城市
- LBS是否在非城市
- 同LBS是否多个申请
- LBS周围是否多个申请
网络信息
- 网络类型：Wifi/4g/3g
- 相同Wifi MAC的申请人数
- Wifi名称是否命中风险关键词
IP地址
- 相同IP的申请人数
- IP所在城市
- IP是否来自数据中心

贷中、贷后指标

贷中数据维度

内部信贷行为数据
- 申贷行为
  - 历史申贷记录
  - 贷前、贷后申贷行为
- 还款
  - 分期期数
  - 首期逾期天数
  - 当前月正常拆分扣款总次数
  - 当前3个月内还款最大金额
  - 历史最大逾期天数
  - 首次成功还款时间距离当前时间
- 催收
  - 催收记录
- 履约历史
  - 提前还款：资金充足、重视信用记录
  - 习惯性逾期：手头紧张、不够重视信用记录
活跃行为
- 失联
- 用户登录
账户特征
- 授信额度使用率
- 代偿余额

时间窗口

obeservation_and_performance

Observation Point观察点：账户申请的时间段，该时间段内客户可能用于建模
- 从风控应用角度，观察点即对账户授信审核的时点，此时能够获得所有信息只能在观察点前的观察期
Observation Window观察期：构造特征的事件窗口
- 观察期选择依赖用户数据的厚薄程度，数据越厚，可提取信息越全面、可靠
Performance Window表现期：定义好坏标签的时间窗口
- 风险需通过一定时间窗口才能表现，即信贷风险具有滞后性
- 表现期越长
  - 信用风险暴露越彻底
  - 也意味着观察期离当前越远，用以提取样本特征的历史数据越陈旧，建模样本和未来样本差异越大
- 应当选择合适的表现期以覆盖足够多的坏客户

说明

表现期的选择
- 对信用卡场景的稳定客群、长期限产品，可用滚动率、账龄分析确定表现期、好坏
- 但对小额信贷产品，实务中一般结合产品期限，沿用常用指标，如：表现期设置为产品期限一半
建模样本窗口选择
- 特征覆盖度：保证数据厚薄程度相同
- 客群没有大幅变动
  - 特征
  - 标签：逾期、出催等

Month on Book/MOB：账龄

统一观察点账龄：统计信息为观察点实时信息，但会导致订单表现期不同
- MOB0：放款日至当月月底
- MOB1：放款后第二个完整月份
- MOB2：放款后第三个完整月份
统一表现期账龄：保证订单表现期相同
- MOB1：放款日开始30天
- MOB2：放款日开始30天至60天

逾期、不良

Payment Delinquency：逾期
- First Payment Delinquency/FPDx：首期逾期（天数）
- Current Payment Delinquency/CPDx：当前逾期
- Historical Payment Delinquency/HPDx：历史逾期
Day Past Due/DPDx：逾期天数

逾期期数

C/M0：当前未逾期
M1：DPD1 - DPD30
M6：逾期151-180日
M7/Bad Debts：逾期180日以上

对信用卡场景而言，M0为账单日到还款日之前，而对信贷场景，M0没有对应时间段

逾期率

两种计算口径
- 逾期率 = 逾期订单数 / 总订单数
- 逾期率 = 逾期订单金额 / 总订单金额
逾期口径调整
- 逾期统计时间窗口：历史、当年
- 逾期后还上
- 担保、代偿
- 多期逾期是否计算剩余未还
总数调整
- 统计时间窗口：历史、当年
- 已发放还是余额
客观反映风控、资产质量的观察期选择
- Coincidental Delinquency：固定观察时点，以截至观察时点前逾期金额、余额计算
- Lagged Deliquency：按照账龄分析方法，将各月份逾期金额、金额计算真实逾期率

不良率

不良率 = （次级+可疑+损失）/ 总
- 次级、可疑、损失在银行内有明确规定，但不完全按照逾期天数划分
- 同体系内内比较不良可行，但和不同体系间没有可比较性

Expected Loss

$EL = PD * LGD * EAD$

Expected Loss预期损失
Probabilty of Default违约概率
- 资产质量越差，违约概率越高
- 可以把对应逾期状态至呆账状态，各状态间迁移率链式相乘得到违约概率
Loss Given Default违约损失率：账户违约后，能够回收的本金比例
Bad Debt Reserve坏账准备金/拨备
- 把未偿清金额按照一定准备金比例储备，用于覆盖预期的未来呆账损失
- 应该等于预期损失

资产质量分析

资产质量：根据逾期天数将资产划分为不同等级

	账龄分析	滚动率分析	迁移率分析
观察点	多个观察点	单个观察点	多个观察点
观察窗口	观察点后各期	观察点前后一段期限	观察点后各期
工具	Vintage曲线	迁移矩阵	迁移率
分析要素	各观察点、各期逾期情况	各逾期状态间迁移情况	各期、各逾期状态下沉情况

Vintage Analysis

账龄分析：对不同时点资产分别跟踪，按照账龄长短对齐后对比，分析不同时点贷款贷后质量

vintage_analysis_sample

用途
- 确定账户成熟期/稳定期
  - 以逾期率趋于稳定所需时间作为判断客户好、坏区分所需时间
  - 辅助定义表现期/成熟期
- 确定资产质量
  - 以曲线平缓处对应逾期率衡量资产质量
- 分析变化规律：分析逾期率变化情况
  - 前几期逾期率上升快：短期风险未能控制，欺诈风险高
  - 曲线一直上升：信用风险识别能差
- 分析影响因素（资产质量），指导风控策略调整
  - 风控策略收紧放松
  - 客群变化
  - 市场环境
  - 政策法规等

vintage起源于葡萄酒品质分析，vintage即指代葡萄酒的批次标签，每年对各批次抽样、记录即得到vintage曲线

Roll Rate Analysis

滚动率分析：利用观察期、表现期违约程度的状态转移矩阵分析违约程度变化情况

roll_rate_analysis_transition_matrix

滚动率分析步骤
- 准备
  - 确定数据源：一般为还款计划表
  - 定义逾期状态
- 统计观察期：以观察点为截至时间，统计客户在观察期最长逾期期数，并据此对用户分级C、M1、M2等
- 统计表现期：以观察点起始，统计客户在表现期内最长逾期数，并据此对用户分级C、M1、M2等
- 根据以上数据绘制列联表、计算频率
- 为排除观察点选择影响，选择多个观察点重复以上
滚动率分析用途
- 分析客户好坏程度、变化情况，确定客户好坏界限

Flow Rate Analysis

迁移率分析：利用违约程度变化计算迁移率，分析违约程度变化规律

flow_rate_analysis

Flow Rate迁移率：资产等级下滑的比例
- 迁移率 = 前等级逾期金额到下一等级逾期金额的转化率
  - M0-M1 = 当月进入M1余额 / 上月末M0余额
核心假设
- 处于某一逾期状态的账户，一个月之后，必然从良为非逾期账户，或恶化为下一级逾期账户
- 状态不会有跃迁，所以一期仅有一组下沉迁移率
迁移率分析步骤
- 准备
  - 确定数据源：一般为还款计划表
  - 定义逾期状态
- 计算各月份、各逾期状态之间迁移率
- 计算不同月份平均迁移率
- 根据平均迁移率和不良资产回收率，计算净坏账损失率
作用
- 展示账户整个生命周的变化轨迹
  - 预测未来坏账损失：各级迁移率乘积得到最终损失率
  - 计算坏账计提标准、资产拨备
- 观察迁移率发展轨迹
  - 分析贷款催收率、催收力度
  - 监控坏账发展倾向和催收效果
- 确定好坏客户标准
  - 即选择迁移率较高的状态作为划分点

Posted 2020-08-10Updated 2021-07-16ML Specification / FinTech / Risk Control23 minutes read (About 3463 words)

评分卡模型

模型

模型是策略的工具，策略包含模型，是模型的延伸
- 相较于专家规则，机器学习模型
  - 允许加入更多特征维度，描述更加全面
  - 上限更高、下限更低
  - 涉及更多维度特征时，维护更方便
- 机器学习模型和专家规则并非相互替代，更多的是串联
业务问题转换为带解决数学问题
- 尽量将业务问题转换为更容易解决分类问题而不是回归问题
- 数学问题应尽量贴近业务：评估指标好不等于业务价值高
  - 远离业务问题的训练出模型，其线下评估效果好也不意味着上线效果好，如：针对客户而不是订单评价
  - 影响客户体验，如：客户等待时间预估偏低而不是偏高
样本构造
- 标签定义
  - 尽量为客观事实（是否、数量），而非主观判断（等级）
  - 样本粒度贴合实际、业务（订单粒度、客户粒度）
- 样本数量
  - 二分类场景：正例样本大于 2000，占比超过 1%
- 采样
  - 尽量不进行人工采样，保持训练数据正、负例比例和真实情况对齐

传统评分卡

	评分卡	复杂学习
特征筛选	需筛选强特征，依赖业务经验	支持弱特征入模
特征处理	WOE 分箱，稳定性好
非线性	仅 WOE 分箱提供非线性，解释性好	非线性充分挖掘数据信息，解释性差
复杂度	模型简单，泛化性好，样本需求小	模型复杂，表达能力强，样本少时容易过拟合
调参	超参少	调参难度大
模型提升方向	分（样本）群建模	Stacking 结合评分卡

信用评分卡模型：利用模型将账户的属性特征按取值分组、并赋予一定分数，对账户进行信用评分
- 最常见的金融风控手段之一，用于决定是否给予授信以及授信的额度和利率
- 常用逻辑回归作为模型
- 应用形式为查分组得分表、得分加和
  - 变量总是被分组，同组内得分相同
  - 用户属性变化不足以跨越箱边界，则得分不改变
评分卡更关注得分相对值，即得分变动情况，评分绝对值含义意义不大
- 常用 LR 中 sigmoid 函数内线性函数结果作为初始得分
  - 根据 LR 意义，此时得分可以映射为账户的违约概率
- 为美观，可能会对得分做线性变换
  - 常对各特征得分做放缩、对账户得分和做平移，此时放缩比例除以 $ln2$ 即为 PDO （对特征得分同时做等比例放缩、平移可行但蠢）
  - 线性变换后得分绝对值无意义，特征重要性可用特征各分组得分差距衡量
评分卡在不同业务阶段体现的方式、功能不一样，按照借贷用户借贷时间可以分为
- 申请评分卡 Application Score Card：贷前申请评分卡
- 行为评分卡 Behavior Score Card：贷中行为评分卡
- 催收评分卡 Collection Score Card：贷后催收评分卡

Stacking 评分卡

考虑将评分卡、机器学习模型结合，使用机器学习模型构建特征，在此基础之上建立评分卡模型

Stacking 思想下的模型架构
- 原始数据域
- 数据挖掘、特征工程
- 数据域特征子模型
- 评分卡模型
架构优势
- 可解释性：保留在数据域粒度上的可解释性
- 信息提取：子模型提取弱特征信息，降低特征工程门槛
- 维度多样性：特征子模型机制，降低特征筛选必要性，保证各数据域都有特征入模
- 模块化：具有良好扩展性，支持子模型替换、删除
- 并行化：各数据域特征子模型专业、独立负责，提高效率
架构劣势
- 牺牲部分可解释性：若策略、模型使用相同变量，策略阈值调整对模型影响难以估计
  - 控制入模变量数目，便于快速定位
  - 利用 SHAP、LIME 等工具解释模型
- 增加上线、维护成本：需要上线多个模型，且对多个架构多个层次都进行监控
- 协同建模增加对接成本
- 分数据域特征子模型建模，容易造成数据孤岛，无法捕捉不同数据域间的数据联系
  - 跨数据域构造特征，构建跨数据域子模型

B 卡 - Behavior Scoring

贷中风控：根据借款人放贷后行为表现，预测未来逾期风险

B 卡用于动态监控放款后风险变化
- 贷前阶段对借款人履约行为掌握少，且为静态数据
- 一般无需实时，离线T+1计算即可
B 卡适合的信贷场景
- 还款周期长
  - 长周期场景用户风险变化可能性大，与 A 卡形成区分
  - 引入贷中客户信息、还款履约行为，更准确识别客户逾期风险
- 循环授信
  - 贷前阶段，无法很好识别客户风险，设置初始额度
  - 贷中与客户更多交互之后，可根据获取的贷中行为信息进行提额、降额操作
B 卡区分度一般很高
- 除贷前数据之外，还可以使用账户的贷中表现数据
- 特别的，不考虑排序性的情况下，使用是否逾期作为划分依据也能得到较高的 TPR-FPR，给出 KS 的下限
B 卡建模主要基于老客
- 老客有足够长的申贷、还款记录
- 新、老客定义口径
  - 新客：无历史结清订单
  - 老客：至少有1笔结清订单

C 卡 - Collection Scoring

贷后催收评分卡：当前状态为逾期情况下，预测未来出催可能性

现阶段业界对 C 卡不够重视
- 贷前风控最重要，优秀的贷前带来更容易的贷中、贷后
- 催收效果和人员更相关，而逾期发生之后往往会委外
- 随信贷行业的发展，贷后催收会趋向于精细化、专业化的发展，模型+策略的优化愈发重要
模型分群
- 新老入催用户
  - 首次入催
  - 再次入催
- MOB 信息（数据厚薄）
  - 还款月份数
  - 催记月份数
- 订单详情
  - 利率
  - 期限
  - 金额

样本选择

建模样本窗口选择
- 特征覆盖度：保证数据厚薄程度相同
- 催收动作变化：出催没有大幅度变动
- 客群变化：入催没有大幅变动
同用户订单合案
- 不合案：同用户多笔订单视为不同样本
  - 表现期内入催当期结清视为出催
- 合案：同用户相近观察点入催订单合并
  - 表现期内入催当期所有账单还清视为出催
  - 对发生过 M2+ 逾期者，可将只要出催一期即视为出催

C 卡模型

根据模型作用时间段分类

M1 全量模型：预测 M1 阶段（逾期 30 天内）还款概率
- 样本：所有入催样本整体
  - 若缓催期内催出用户较多，则模型主要学习了缓催样本信息，约等于缓催响应模型，对非缓催样本效果较差
- 时间窗口
  - 观察点：还款日
  - 表现期：M1 阶段
缓催响应模型：预测适合缓催人群
- 样本：需要积累足够的缓催响应样本
  - 若有足够缓催响应样本，可以和M1全量模型同时构建
  - 否则，在 M1 全量模型得分高（出催概率高）人群上进行 AB Test，积累缓催响应样本
- 时间窗口
  - 观察点：还款日
  - 表现期：缓催响应日(2-3 天)
贷后 N 天流转模型：预测贷后N天后的还款概率
- 样本：缓催内未出催样本
  - 去除缓催样本影响，更多学习缓催期外出催样本信息
  - 优先对催出概率高的人群进行催收，提高出催概率
- 时间窗口
  - 观察点：还款日（逾期）后 N 天
  - 表现期：至下个流转模型观察点、逾期阶段结束时间点
M2+ 模型：预测 M2+ 阶段的还款概率（类似贷后流转模型）
- 样本：M1 阶段未出催样本
- 时间窗口
  - 观察点：M2 阶段起始
  - 表现期：至下个流转模型观察点、逾期阶段结束时间点

模型应用方法

缓催响应人群确定
- 交叉 M1 模型、缓催响应模型，根据模型交叉结果设置阈值
- 根据阈值筛选缓催响应人群
- 限定缓催期（2-3 天），将缓催响应样本分为人工催收、缓催两组，观察两组在缓催期限内出催率变化
  - 若出催率相同，则认为缓催响应人群分析方法可行，对缓催响应人群可采取缓催策略
  - 若出催率相差较大，则调整缓催响应人群分析方法
- 缓催模型响应时间（缓催期）可根据响应时间段内的出催率变化设置
模型搭建策略
- M1 阶段出催概率较大，在M1阶段会设计多个细分模型
  - 至少：M1 阶段全量模型
  - 缓催样本足够
    - 缓催响应模型
    - 贷后 N 天流转模型
  - 精细化管理：多个不同时间窗口的贷后流转模型
- M2+ 阶段根据样本量、精细化程度设置适量模型

开发流程标准化

风控模型开发流程标准化意义
- 提高建模效率：可批量快速生产模型，提高效率
- 帮助理解指标逻辑、业务含义，利于调试优化
- 流程规范约束
  - 统一建模流程，减少出错概率、便于问题回溯
  - 统一命名方式，便于汇总文档

数据预处理

特征编码

特征离散化
WOE 编码特征
- WOE 曲线应符合业务逻辑（一般单调），并且经过跨时间窗口验证，否则应该调整
- LR 模型中特征权重应该全为正值，否则
  - 同数据 WOE 值体现的逻辑相违背
  - 负值权重特征存在较严重共线性
one-hot 编码特征
- 同特征下个分箱单独作为独立变量取值
  - 权重灵活性更大，模型效果可能较好
  - 变量数量多，需要样本数量大，模型效果可能较差（随机解法）
- 各特征分箱之间无联系，难以通过模型剔除某个变量

样本赋权

样本赋权：充分利用所有样本的信息，避免样本有偏
- 按样本距今时间赋权，近期样本高权重
- 按业务特性赋权，不同额度、利率、期限不同权重
- 按账户类型赋权

拒绝推断

Reject Inference 拒绝推断：避免样本偏差导致模型估计过于乐观

Exploratory Data Analysis

风控领域样本较少，一般按月粒度观察，即将样本按月分组为 vintage 进行分析，探索、评估数据
- 稳定性
- 信息量
- 信息重复/相关性
实操中可逐阶段设置多组阈值，分布进行变量探索、筛选
- 多组阈值逐步剔除能尽可能保留高信息量特征
- 避免相关性、RF 特征重要度等 非单变量指标 剔除过多特征

模型评估

有效性/区分度
- GINI 指数
- KS 值
- 坏样本率：组内、累计
- 提升度 = 召回样本坏样本率 / 全部样本坏样本率
- odds = 坏样本率 / 好样本率
排序性
- AUC 值/ROC 曲线
稳定性
- PSI
- 各 Vintage 内坏占比、Lift 值、odds 等指标稳定性
模型得分展示表
- 箱内样本数
- 好、坏样本数
- 箱内坏样本、比例
- 累计好、坏样本
- 累计好、坏样本比例：TPR、FPR、TPR-FPR
- 累计通过率、坏样本比例

模型应用

Calibration 模型校准

一致性校准：将模型预测概率校准到真实概率
尺度变换：将风险概率转换为整数分数

导出得分

原始得分
- one-hot 编码：LR 模型系数
- WOE 编码：LR 模型系数（权重）、WOE 值之积
常对各特征得分做放缩、对账户得分和做平移
- PDO：违约翻倍得分
  - 用于缩放原始得分
  - 得分按 $\frac {PDO} {ln2}$ 缩放后，得分减少 $PDO$ 分，用户违约 odds 翻倍，缺省即 $ln2$
- 账户得分总和平移则仅仅是为了美观
- 对特征得分同时做等比例放缩、平移可行但蠢

Posted 2020-08-04Updated 2021-08-04ML Specification / NLP10 minutes read (About 1457 words)

Word2Vec

Word2Vec：word embeding的一种，使用层次化softmax、负采样训练词向量

Hierarchical Softmax

层次Softmax

word2vec_hierarchical_softmax

对所有词向量求和取平均作为输入层到隐层的映射（特指CBOW模型）
使用霍夫曼树代替从隐藏层到输出softmax层的映射

思想

softmax需要对$m$个类别求出softmax概率，参数多、计算复杂
考虑将$m$个类别划分为多个二分类sigmoid，即
- 将总类别划分为两组
- 依次判断数据点属于哪组
- 直至数据点所属组仅包含一个类别
则多个sigmoid划分构成一棵二叉树，树叶子节点即为$m$ 类别
- 二叉树结构可以由多种，最优二叉树应该使得对整个数据集而言，sigmoid判断次数最少
- 即应该使用按照数据点频数构建的霍夫曼树
- 霍夫曼树

模型

输入$x^T$所属类别霍夫曼编码为$d={d_1,\cdots,d_M}$，则应最大化如下似然函数
- $w_j, b_j$：节点$j$对应sigmoid参数
- $P(d_i)$：以sigmoid激活值作为正例概率（也可以其作为负例概率，但似然函数需更改）
则对数似然函数为
$L = log \prod_{i=1}^M P(d_i|x, w_{j_i}) = \sum_{i=1}^M d_i log [\sigma(x^T w_{j_i} + b_{j_i})] {1-d_i} log [1 - \sigma(x^T w_{j_i} + b_{j_i})]$

梯度计算

则参数$w_{j_M}$梯度如下
$\begin{align*} \frac {\partial L} {\partial w_{j_M}} & = d_M [1-\sigma(x^T w_{j_M} + b_{j_M})] x - (1 - d_M) \sigma(x^T w_{j_M} + b_{j_M}) x \\ & = (d_M - \sigma(x^T w_{j_M} + b_{j_M})) x \end{align*}$
词向量$x$梯度如下
$\frac {\partial L} {\partial x} = \sum_{i=1}^M (d_i - \sigma(x^T w_{j_i} + b_{j_i})) w_{j_i}$

CBOW流程

特征词周围上下文词均使用梯度更新，更新输入

基于预料训练样本建立霍夫曼树
随机初始化模型参数$w$、词向量$w$
对训练集中每个样本 $(context(x), x)$（$2C$个上下文）如下计算，直至收敛
- 置：$e=0, xw=\frac 1 {2C} \sum{c=1}^{2C} x_c$
- 对$x$的霍夫曼编码 $d={d_1, \cdots, d_M}$ 中 $d_i$ 计算
  $\begin{align*} \sigma_i & = \sigma(x_w^T w_{j_i} + b_{j_i}) \\ g & = (d_i - \sigma_i) \eta \\ e & = e + g w_{j_i} \\ w_{j_i} & = w_{j_i} + g x_w \end{align*}$
- 更新 $2C$ 上下文词对应词向量
  $x_i = x_i + e$

Skip-Gram流程

考虑上下文是相互的，则 $P(x{context}|x)$ 最大化时，$P(x|x{context})$ 也最大

为在迭代窗口（样本）内更新仅可能多词向量，应该最大化 $P(x|x_{context})$，使用梯度更新上下文 $2C$ 个词向量，更新输出（条件概率中更新条件）

基于预料训练样本建立霍夫曼树
随机初始化模型参数 $w$、词向量 $w$
对训练集中每个样本 $(x, context(x))$、每个样本中上下文词向量 $x_c$（$2C$ 个上下文），训练直至收敛
- 置：$e=0$
- 对 $x$ 的霍夫曼编码 $d={d_1, \cdots, d_M}$ 中 $d_i$ 计算
  $\begin{align*} \sigma_i & = \sigma(x_c^T w_{j_i} + b_{j_i}) \\ g & = (d_i - \sigma_i) \eta \\ e & = e + g w_{j_i} \\ w_{j_i} & = w_{j_i} + g x_c \end{align*}$
- 更新 $2C$ 上下文词对应词向量
  $x_c = x_c + e$

Negtive Sampling

负采样

思想

通过负采样得到$neg$个负例
对正例、负采样负例建立二元逻辑回归

模型、梯度

对类别为$j$正例、负采样负例应有如下似然函数、对数似然函数
- $y_i$：样本点标签，$y_0$为正例、其余负例
同普通LR二分类，得到参数、词向量梯度
$\begin{align*} \frac {\partial L} {\partial w_j} & = (y_i - \sigma(x^T w_j)) x \\ \frac {\partial L} {\partial x} & = \sum_{i=1}^{neg} (y_i - \sigma(x^T w_j)) w_j \end{align*}$

负采样方法

每个词对应采样概率为词频取$3/4$次幂后加权
$p(x_0) = \frac {count(x_0)^{3/4}} {\sum_{x \in vocab} count(x)^{3/4}}$

CBOW流程

随机初始化所有模型参数、词向量
对每个训练样本$(context(x_0), x_0)$负采样$neg$个中心词 $x_i$，考虑$x_0$为类别$j$
在以上训练集$context(x0), x_0, x_1, \cdots, x{neg}$中训练直至收敛
- 置：$e=0, xw=\frac 1 {2C} \sum{c=1}^{2C} x_c$
- 对样本$x0, x_1, \cdots, x{neg}$，计算
  $\begin{align*} \sigma_i & = \sigma(x_w^T w_j + b_j) \\ g & = (y_i - \sigma_i) \eta \\ e & = e + g w_j \\ w_j & = w_j + g x_w \end{align*}$
- 更新$2C$上下文词对应词向量
  $x_i = x_i + e$

Skip-gram中心词

类似Hierarchical Softmax思想，更新输出$2C$个词向量

随机初始化所有模型参数、词向量
对每个训练样本$(context(x_0), x_0)$负采样$neg$个中心词 $x_i$，考虑$x_0$为类别$j$
以上训练集$context(x0), x_0, x_1, \cdots, x{neg}$中，对每个上下文词向量$x_c$如下训练直至收敛
- 置：$e=0$
  $\begin{align*} \sigma_i & = \sigma(x_c^T w_j + b_j) \\ g & = (y_i - \sigma_i) \eta \\ e & = e + g w_j \\ w_j & = w_j + g x_c \end{align*}$
- 更新$2C$上下文词对应词向量
  $x_c = x_c + e$

Posted 2019-07-29Updated 2021-07-16ML Specification / Click Through Rate / Recommandation System16 minutes read (About 2352 words)

CTR Stacking Models

深度学习CTR

stacking_nn_models_envolution_network

Deep Crossing

Deep Crossing：深度学习CTR模型最典型、基础性模型

deep_crossing_structure

multiple residual units：残差网络

Factorization Machine based Neural Network

FNN：使用FM隐层作为embedding向量，避免完全从随机状态训练 embedding

fnn_structure

输入特征为高维稀疏特征，embeddingd层与输入层连接数量大、训练效率低、不稳定
提前训练embedding提高模型复杂度、不稳定性

Product-based Neural Network

PNN：在embedding层、全连接层间加入product layer，完成针对性特征交叉

pnn_structure

product layer：在不同特征域间进行特征组合，定义有 inner、outer product以捕捉不同的交叉信息，提高表示能力

传统DNN中通过多层全连接层完成特征交叉组合，缺乏针对性

没有针对不同特征域进行交叉

不是直接针对交叉特征设计

Wide&Deep Network

Wide&Deep：结合深层网络、广度网络平衡记忆、泛化

wide_and_deep_structure

deep models：基于稠密embedding前馈神经网络

wide models：基于稀疏特征、特征交叉、特征转换线性模型

基于记忆的推荐通常和用户已经执行直接相关；基于泛化的推荐更有可能提供多样性的推荐

memorization：记忆，学习频繁出现的物品、特征，从历史数据中探索相关性

generalization：泛化，基于相关性的transitivity，探索较少出现的新特征组合

https://arxiv.org/pdf/1606.07792.pdf

wide&deep系模型应该都属于stacking集成

Google App Store实现

wide_and_deep_logit_structure

$P(Y=1|x) = \sigma(w_{wide}^T[x, \phi(x)] + w_{deep}^T \alpha^{l_f} + b)$

wide部分：cross product transformation
- 输入
  - 已安装Apps
  - impression Apps
  - 特征工程交叉特征
- 优化器：带L1正则的FTRL
Deep部分：左侧DNN
- 输入
  - 类别特征embedding：32维
  - 稠密特征
  - 拼接：拼接后1200维（多值类别应该需要将embedding向量平均、极大化）
- 优化器：AdaGrad
- 隐层结构
  - 激活函数relu优于tanh
  - 3层隐层效果最佳
  - 隐层使用塔式结构

DeepFM

DeepFM：用FM替代wide&deep中wide部分，提升其表达能力

deepfm_structure

Dense Embeddings：FM中各特征隐向量，FM、DNN公用

FM Layer：FM內积、求和层

$\begin{align*} y_{FM} & = <w, x> + \sum_i \sum_j <v_i, v_j> x_i x_j + b \\ \hat y_{DeepFM} & = \sigma(y_{FM} + y_{DNN}) \end{align*}$

特点（和Wide&Deep关键区别）
- wide部分为FM （deep&wide中wide部分有特征交叉，但依靠特征工程实现）
- FM、DNN部分共享embedding层
同时组合wide、二阶交叉、deep三部分结构，增强模型表达能力
- FM负责一阶特征、二阶特征交叉
- DNN负责更高阶特征交叉、非线性

实现

DNN部分隐层
- 激活函数relu优于tanh
- 3层隐层效果最佳
- 神经元数目在200-400间为宜，略少于Wide&Deep
- 在总神经元数目固定下，constant结构最佳
embedding层
- 实验中维度为10

Deep&Cross Network

Deep&Cross：用cross网络替代wide&deep中wide部分，提升其表达能力

deep_and_cross_structure

特点（和WDL、DeepFM区别）
- 使用交叉网络结构提取高阶交叉特征
  - 无需特征工程（WDL）
  - 不局限于二阶交叉特征（DeepFM）
交叉网络可以使用较少资源提取高阶交叉特征

https://arxiv.org/pdf/1708.05123.pdf

交叉网络

交叉网络：以有效地方式应用显式特征交叉，由多个交叉层组成

cross_network_cross_layer

$\begin{align*} x_{l+1} & = f(x_l, w_l, b_l) + x_l \\ & = x_0 x_l^T w_l + b_l + x_l \end{align*}$

$x_l$：第$l$交叉层输出

$w_l, b_l$：第$l$交叉层参数

借鉴残差网络思想
- 交叉层完成特征交叉后，会再加上其输入
- 则映射函数$f(x_l, w_l, b_l)$即拟合残差
特征高阶交叉
- 每层$x_0 x_l^T$都是特征交叉
- 交叉特征的阶数随深度$l$增加而增加，最高阶为$l+1$
复杂度（资源消耗）
- 随输入向量维度、深度、线性增加
- 受益于$x_l^T w$为标量，由结合律无需存储中间过程矩阵

Nueral Factorization Machine

NFM：用带二阶交互池化层的DNN替换FM中二阶交叉项，提升FM的非线性表达能力

$\begin{align*} \hat y_{NFM}(x) & = w_0 + \sum_{i=1}^m w_i x_i + f_{DNN}(x) \\ & = w_0 + \sum_{i=1}^m + h^T f_{\sigma}(f_{BI}(\varepsilon_x)) \end{align*}$

$f_{DNN}(x)$：多层前馈神经网络，包括Embedding Layer、 Bi-Interaction Layer、Hidden Layer、 Prediciton Layer

$h^T$：DNN输出层权重

模型结构

nfm_structure

Embedding Layer

全连接网络：将每个特征映射为稠密向量表示

$\varepsilon_x = \{x_1v_1, x_2v_2, \cdots, x_mv_m\}$

$v_i$：$k$维embedding向量

只需要考虑非0特征，得到一组特征向量
特征向量会乘以特征值以反映真实值特征（一般embedding特征取0/1，等价于查表）

Bi-Interaction Layer

BI层：将一组embedding向量转换为单个向量

$\begin{align*} f_(BI)(\varepsilon_x) & = \sum_{i=1} \sum_{j=i+1} x_i v_i \odot x_j v_j \\ & = \frac 1 2 (\|\sum_{i=1}^m x_i v_i\|_2^2 - \sum_{i=1}^m \|x_i v_i\|_2^2) \end{align*}$

$\odot$：逐元素乘积

没有引入额外参数，可在线性时间$\in O(kM_x)$内计算
可以捕获在低层次二阶交互影响，较拼接操作更 informative，方便学习更高阶特征交互

将BI层替换为拼接、同时替换隐层为塔型MLP（残差网络）则可以得到wide&deep、DeepCross

拼接操作不涉及特征间交互影响，都交由后续深度网络学习，实际操作中比较难训练

Hidden Layer

隐层：普通多层嵌套权重、激活函数

$f_{\sigma} = \sigma_l(\beta_l (\cdot \sigma_1(\beta_l f_{BI}(\varepsilon_X) + b_1)) + b_l)$

$l=0$没有隐层时，$f_{\sigma}$原样输出，取$h^T$为全1向量，即可得FM模型

Attentional Factorization Machines

AFM：引入Attention网络替换FM中二阶交互项，学习交互特征的重要性，剔除无效的特征组合（交互项）

$\begin{align*} \hat y_{AFM} & = w_0 + \sum_{i=1}^m w_i x_i + f_{AFM}(\varepsilon) \\ & = w_0 + \sum_{i=1}^m w_i x_i + p^T \sum_{i=1}^m \sum_{j=i+1}^m a_{i,j} (v_i \odot v_j) x_i x_j \end{align*}$

$\varepsilon$：隐向量集，同上

$p^T$：Attention网络输出权重

模型结构

afm_structure

Pair-Wise Interaction Layer

成对交互层：将m个embedding向量扩充为$m(m-1)/2$个交互向量

$f_{PI}(\varepsilon) = \{(v_i \odot v_j) x_i x_j\}_{(i,j) \in R_X}$

$R_X = {(i,j) | i \in X, j \in X, j > i }$

$v_i$：$k$维embedding向量

Attention-based Pooling

注意力池化层：压缩交互作用为单一表示时，给交互作用赋不同权重

$\begin{align*} f_{Att}(f_{PI}(\varepsilon)) = \sum_{(i,j) \in R_X} a_{i,j} (v_i \odot v_j) x_i x_j \end{align*}$

$a{i,j}$：交互权重$w{i,j}$的注意力得分

$\odot$：逐元素乘积

考虑到特征高维稀疏，注意力得分不能直接训练，使用MLP attention network参数化注意力得分
- $W \in R^{t*k}, b \in R^t, h \in R^T$：模型参数
- $t$：attention network隐层大小

Deep Interest Network

DIN：融合Attention机制作用于DNN

模型结构

din_stucture

activation unit

激活单元

$\begin{align*} v_U(A) & = f_{au}(v_A, e_1, e_2, \cdots, e_H) \\ & = \sum_{j=1}^H a(e_j, v_A) e_j \\ & = \sum_{j=1}^H w_j e_j \end{align*}$

相较于上个结构仅多了直接拼接的用户、上下文特征

模型训练

Mini-batch Aware Regularization

以Batch内参数平均近似$L_2$约束

$\begin{align*} L_2(W) & = \sum_{i=1}^M \sum_{j=1}^B \sum_{(x,y) \in B_j} \frac {I(x_i \neq 0)} {n_i} \|W_i\|_2^2 \\ & \approx \sum_{i=1}^M \sum_{j=1}^B \frac {\alpha_{j,i}} {n_i} \|W_i\|_2^2 \end{align*}$

$W \in R^{K * M}, W_i$：embedding字典、第$i$embedding 向量

$K, M$：embedding向量维数、特征数量

$B, B_j$：batch数量、第$j$个batch

则参数迭代
$W_i \leftarrow w_j - \eta[\frac 1 {|B_j|} \sum_{(x,y) \in B_j} \frac {\partial L(p(x), y)} {\partial W_j} + \lambda \frac {\alpha_{j,i}} {n_i} W_i]$

Data Adaptive Activation Function

$\begin{align*} f(x) & = \left \{ \begin{array}{l} x, & x > 0 \\ \alpha x, & x \leq 0 \end{array} \right. \\ & = p(x) * x + (1 - p(x)) * x \\ p(x) & = I(x > 0) \end{align*}$

PReLU在0点处硬修正，考虑使用其他对输入自适应的函数替代，以适应不同层的不同输入分布

$p(x) \frac 1 {1 + exp(-\frac {x - E[x]} {\sqrt{Var[x] + \epsilon}})}$

Deep Interest Evolution Network

DIEN：引入序列模型AUGRU模拟行为进化过程

模型结构

dien_structure

Interest Extractor Layer：使用GRU单元建模历史行为依赖关系

? 关系

Posted 2019-07-23Updated 2021-07-16ML Specification / Click Through Rate / Recommandation System9 minutes read (About 1380 words)

视频推荐

Matching

基于用户行为

离线协同过滤

根据用户行为日志，利用物品-based协同过滤生成离线的物品2物品相似度矩阵、用户离线推荐结果
- 基于艾宾浩斯遗忘曲线按照时间进行降权
- 弱化热点影片的权重
- 矩阵分解
基于用户的playlog接口实时获取用户的短时间内的观看历史，通过物品2物品相似度矩阵进行CF扩散，提取出与用户短时间内观看历史相似的topN个物品用于召回
用户的CF离线推荐结果直接作为线上服务的召回渠道

W2V

全部影片作为预料库、观看历史按时序排列视为文档，计算所有物品的词向量
根据词向量计算物品2物品相似度矩阵，用于线上playlog召回数据

LDA

基于概率主题模型：文档-潜在主题-词三级关系，映射/类比到用户行为数据：用户-潜在兴趣-资源
通过用户历史行为记录，提取LDA中间产物、用户的潜在兴趣向量、资源潜在主题分布向量
基于物品的主题向量，进行物品2物品相似度计算，用于线上 playlog召回数据

SimRank

将用户、物品关系视为二部图，考虑相似关系可以在图上传播思想，使用SimRank计算物品相似队列

基于内容

基于标题

对影片文本简介使用doc2vector，计算资源的表示向量
使用资源的表示项集计算物品2物品相似度矩阵

基于Style

基于Tag

其他方向

RNN捕捉用户在点击序列中的模式，利用点击行为发生先后顺序调整推荐展示顺序
Graph Embedding

Ranking

特征工程

低维稠密通用特征：泛化能力良好、记忆能力差
- embedding特征
- 统计特征
高维稠密特征：记忆能力较好
- 视频ID
- 标签
- 主题

特征扩充

用户兴趣向量丰富用户维度上兴趣特征
- LDA中间产物作为用户潜在兴趣向量
- W2V词向量、用户行为历史统计出用户兴趣向量
资源embedding向量丰富物品维度特征
- 用户行为数据embedding得到W2V、LDA词向量
- 资源标题embedding得到doc2vector词向量
资源封面AutoEncode向量
- 基于资源封面采用自编码器训练，提取隐层向量作为资源特征

统计特征细化

特征工程时间窗口细化：按不同时间窗口分别计算资源的统计特征
- 丰富资源特征
- 融入时间衰减因素
在线特征交叉：交叉特征增加样本特征的区分度

连续特征离散化

目标：避免特征为长尾分布、大部分取值集中在小范围，对样本区分度差

等频离散化：等频分桶、独热编码
对数转化

采样策略

负样本采样策略调整：基本曝光时间、顺序，过滤负样本
不平衡样本策略调整：离线A/B测试正负样本比例，择优调整

模型

一般使用stacking模型堆叠集成

参见ml_models/model_enhancement/ensemble_stacking

基学习器

GBDT：各树、各叶子节点对应一维特征
- 适合低维稠密通用特征，对输入特征分布没有要求
DNN
- 适合普通稠密特征、embedding特征
- 能抽取有良好分布数据的深层次特征，提高模型准确性、泛化能力

元学习器

LR
- 适合低维稀疏特征，可对所有特征离散化以引入非线性
FM
- 适合低维稀疏特征
- LR基础上自动组合二阶交叉项
Linear：训练模型、对训练结果线性加权

冷启动、EE

冷启动

Matching

冷启动用户召回
- 使用imbd算法计算资源得分，根据不同时间周期进行得分融合、并ab测试，选取最优时间周期组合
- 按照imdb得分倒排，生成热点召回数据
冷启动资源召回
- 基于资源库，统计各资源点击、播放率，按一定比例召回第点击、播放率物品

Ranking

通常使用强化学习算法

Thompson Sampling
UCB算法
Epsilon-Greedy算法
朴素Bandit算法
LinUCB算法：较UCB算法加入特征信息
COFIBA算法：Bandit算法结合协同过滤

Exploration and Exploitation Tradeoff

Matching

调整不同召回渠道的配比方式保证多样性

Posted 2019-07-21Updated 2021-07-16ML Specification / Click Through Rate / Recommandation System7 minutes read (About 1086 words)

Recommendation System

Collaborative Filtering-Based Recommendation

基于协同过滤推荐算法：推荐算法中主流

模型一般为n个物品、m个用户的表
- 只有部分用户、物品之间有评分数据
- 要用已有部分稀疏数据预测空白物品、数据之间评分关系，推荐高评分物品
无需太多特定领域的知识，可通过基于统计的机器学习算法得到较好推荐效果，可以分为
- 基于用户
- 基于物品
- 基于模型

现在指推荐算法一般指协同过滤，其他基于内容、规则、人口统计信息等都被包含/忽略

User-based

基于用户协同过滤：主要考虑用户之间相似度，找出相似用户、相似用户喜欢的物品，预测目标用户对对应物品的评分，推荐高评分物品

特点：（相较于Item-Based）推荐更社会化
- 反映用户所在小型兴趣群体中物品热门程度
- 可帮助用户找到新类别、惊喜物品
适合场景
- 用户数量较少、变化慢场合，否则更新、计算用户相似度矩阵代价大
- 时效性强、用户个性化兴趣不明显领域
- 无需给出推荐解释
- 示例
  - 新闻推荐：注重热门、时效、item更新快
  - 热点视频推荐
方法
- 基于规则：大众型推荐方法，如：最多用户点击、浏览
- 基于人口统计信息：简单根据用户基本信息发现用户相关程度、推荐
- 混合推荐
  - 结合多个推荐算法，集成算法推荐结果
  - 复杂度高

Item-Based Collaborative Filtering

基于项目协同过滤：考虑物品和物品之间的相似度，找到目标用户对某些物品的评分，预测用户对相似度高的类似物品评分，推荐高评分相似物品

特点：（相较于User-Based）推荐更个性化
- 反映用户自身的兴趣传承
- 可帮助用户深入挖掘自身兴趣
- 准确度一般
- 推荐多样性弱，难以带来惊喜
适合场景
- 物品数量较少、变化慢场合，否则更新、计算物品相似度矩阵代价大
- 长尾物品丰富、个性化需求不明显
- 需要向用户给出推荐理由
- 示例
  - 电商
  - 电影：兴趣持久、更个性化

Model-Based Collaborative Filtering

基于模型：目前最主流的协同过滤类型

关联算法：找出用户-物品数据里频繁出现的项集，作频繁集挖掘，推荐频繁集、序列中其他物品
- Apriori
- FPTree
- PrefixSpan
聚类算法：按照用户、物品基于一定距离度量聚类，推荐高评分同类物品、同类人群（类似于基于用户、物品协同过滤）
- K-means
- BIRCH
- DBSCAN
- Spectral Clustering
分类算法：使用分类模型划分物品
- 逻辑回归
- 朴素贝叶斯
回归算法：使用回归模型给物品预测打分，较分类更平滑
- 线性回归
- 决策树
- SVM
矩阵分解：对用户-物品评分矩阵进行分解
- FunkSVD
- BiasSVD
- SVD++

还有基于图模型、神经网络等新模型

还有依赖于自然语言处理NLP，通过挖掘文本内容特征，得到用户的偏好，进而做推荐，同样可以找到用户独特的小众喜好

Posted 2019-07-14Updated 2021-07-16ML Specification / NLP21 minutes read (About 3137 words)

文本预处理

去除噪声文档、文档中垃圾数据
停用词去除
词根还原（英文）
分词（中文）
词性标注
短语识别
词频统计

汉语分词

分词：添加合适的显性词语边界标志，使所形成的词串反映句子本意

分词是正确处理中文信息的基础
- 文本基于单字
- 书面表达方式以汉字作为最小单位
- 词之间没有显性界限标志
用单个汉字作特征，不考虑词语含义，直接利用汉字在文本中出现的统计特性对文本进行划分
- 直观明了
- 操作简单
- 对西语文本划分非常容易（使用空格划分）
使用词作为特征
- 词是中文语义的最小信息单位，可以更好的反映句子中信息
- 分析难度更高，中文文本中词之间没有分隔标记，正确分词是关键

分词方法

基于词典
- FMM：正向最大匹配分词
- BMM：逆向最大匹配分词
- BM法：双向扫描法
- 逐词遍历
基于统计模型
- N-最短路径
- HMM
- N元语法
- 由字构词的汉语分词方法

分词难点

歧义切分

分词规范
- 分词单位
  - 二字、三字以及结合紧密、使用稳定的
  - 四字成语
  - 四字词或结合紧密、使用稳定的四字词组
- 五字、五字以上谚语、格言等，分开后如不违背原有组合意义，应切分
歧义切分
- 交集型切分歧义
- 组合型切分歧义

未登录词识别

词表词：记录在词表中的词

未登录词：词表中没有的词、或已有训练语料中未曾出现词（此时也称为out of vocabulary）

真实文本切分中，未登录词总数大约9成是专有名词，其余为新词
未登录词对分词精度影响是歧义词的10倍
命名实体识别：实体名词、专业名词
- 界定规则不存在太大分歧、构成形式有一定规律
- 在文本中只占8.7%，引起分词错误率59.2%

词性标注

词性标注：在给定句子中判定每个词的语法范畴，确定词性并加以标注的过程

POS作为特征可以更好的识别词语之间关系
- 词性标注计数为phrase chunking词组组块的界定、 entities and relationship实体与关系的识别打下良好基础，有利于深入探索文本语义信息
- 词组的形式提高了特征向量的语义含量，使得向量更稀疏
难点
- 汉语缺乏词形态变化
- 常用词兼类现象严重：占11%
- 研究者主观原因：不同语料库有不同规定、划分方法

part of speech：POS，词性

Forward Maximum Matching Method

FMM：正向最大匹配分词

步骤
- 记词典中最长此表包含汉字数量为M
- 从材料中选取前$m = M$个汉字去作为匹配字段，查找分词词典
  - 若存在匹配词，则将其切分出
  - 否则$m = m - 1$，重复
- 重复直至材料分词完毕
特点
- 对交叉歧义、组合歧义没有解决办法
- 错误切分率为$\frac 1 {169}$

Backward Maximum Matching Method

BMM：逆向最大匹配分词

步骤：类似FMM，仅从材料/句子末尾开始处理
特点
- 错误切分率$\frac 1 {245}$，较FMM更有效

Bi-direction Matching Method

BM法：双向扫描法

步骤：比较FMM、BMM法切分结果，决定正确切分
特点
- 可以识别分词中交叉语义

N-最短路径

思想
- 考虑待切分字串$S=c_1 c_2 \cdots c_n$，其中$c_i$为单个字、$n$为串长
- 建立节点数为$n+1$的切分有向无环图，各节点编号为 $V_0, V_1, \cdots, V_n$
  - 相邻节点间存在边
  - 若$w=ci c{i+1} \cdots cj$是一个词，则节点 $v{i-1}, v_j$直接存在边
  - 所有边距离均为1
- 求有图无环图中最短路径

特点

算法时间复杂度为$O(nNK)$
- $n$：字串长度
- $N$：最短路径数目
- $k$：某个字作为词末端字的平均次数

改进—考虑噪声

基于统计信息的粗分模型

考虑词串$W$经过信道传输，由于噪声干扰丢失词界切分标志，到输出端为字串$C$
N-最短路径词语粗分模型可以改进为：求N个候选切分$W$，使得概率$P(W|C)$为前N个最大值
- $P(C)$：字串概率，常数
- $P(C|W)$：仅有
采用一元统计模型，设$W=w_1w_2\cdots W_m$是字串 $S=c_1c_2\cdots c_n$的切分结果，则其切分概率为
- $P(w_i)$：词$w_i$出现概率，在大规模预料训练的基础上通过极大似然方法得到
则$-lnP(w_i)$可看作是词$w_i$在切分有向无环图中对应距离，改进N-最短路径方法

由字构词

假设、背景

思想：将分词过程看作字分类问题，认为每个字在构造特定词语时，占据确定的位置

中文词一般不超过4个字，字位数量很小
- 首部B
- 词中M
- 词尾E
- 单独成词S
部分汉字按一定方式分布，有规律
利用相对固定的字推断相对不定的字的位置问题
虽然无法将所有词列入词典，但字基本稳定

步骤

对所有字根据预定义的特征进行词位特征学习，获得概率模型
在带待分字串上根据字与字之间的结合紧密程度得到词位的分类结果
根据词位定义直接获得最终分词结果

Productivity

能产度：词$c_i$在词位$t_j$的能产度定义为

$P_{c_i}(t_j) = \frac {count(c_i, t_j)} \sum_{t_j \in T} count(c_i, t_j)$

$T = {B, B_2, B_3, M, E, S}$

主词位：给定字在其上能产度高于0.5的词位

|标记|B|B2|B3|M|E|S|总字量| |——-|——-|——-|——-|——-|——-|——-|——-| |字量|1634|156|27|33|1438|632|3920| |百分比|31.74|3.03|0.52|0.64|27.94|12.28|76.16|
- MSRA2005语料库中有主词位的字量分布
自由字：没有主词位的字
- 自由字是基于词位分类的分词操作得以有效进行的的基础之一

字：不仅限于汉字，包括标点、外文字母、注音符号、数字等任何可能文字符号

优势

能平衡词表词、未登录词
简化分词系统设计
- 无需强调词表词信息
- 无需设置特定未登录词识别模块

分词评价指标

正确率
召回率
F-测度值

Vector Space Model

向量空间模型：自然语言处理常用模型

document：文档，句子、段落、整篇文章

term/feature：词根、词、短语、其他

weight：项的权重，每个特征项在文档中重要程度

相似度比较

内积
$sim(D_1, D_2) = \sum_{k=1}^n w_{1,k} w_{2,k}$
Cosine相似度
$cos(D_1, D_2) = cos \theta = \frac {\sum_{k=1}^n w_{1,k} w_{2,k}} {\sqrt{\sum_{k=1}^n w_{1,k}^2 \sum_{k=1}^n w_{2,k}^2}}$

权重

布尔权重：$bw_{t,d} = {0, 1}$
TF：绝对词频，$TF{t,d} = \frac {n{t,d}} {n_d}$
IDF：倒排文档频度，$IDF_{t,d} = log \frac M {m_t}$
TF-IDF：$TF-IDF{t,d} = TF{t,d} * IDF_{t,d}$
TF-IWF：$TFIWF{t,d}= TF{t,d} log \frac {\sum{t=1}^T \sum{d=1}^N n{t,d}} {\sum{t=1} n{t,d}}$

$t_{t,d}$：文档$d$中出现特征$t$的次数

$t_d$：文档$d$中出现总词数

$m_t$：训练集中出现特征$t$文档数

$M$：训练集中文档总数

$K$：特征总数量

特征加权

特征加权主要包括三个部分（层次）
- 局部加权：使用词语在文档中的统计量
- 全局加权：词语在整个数据集中的统计量
- 标准化
一般化特征加权表达式
- $L_d(w)$：词$w$在文档$d$中的局部权重
- $G(w)$：词$w$在文档集合中的全局权重
- $N_d$：文档d的标准化因子

Document Frequency

DF：文档频率，文本数据中包含某词条的文档数目

通过文档频率进行特征选择：按文档频率大小对词条进行排序
- 将DF小于某阈值的词删除
  - 稀有词项全局影响力不大
  - 文档若有稀有词向，通常也会有常见词项
  - 和通常信息获取观念抵触：稀有更有代表性
- 将DF大于某阈值的词删除
  - 太频繁词词项没有区分度
容易实现、可扩展性好

其他指标

信息增益/互信息
卡方统计量

Latent Semantic Analysis

LSA：潜在语义分析

文本分析中常用的降维技术
- 特征重构方法
- 很好解决了同义词、一词多义等现象给文本分析造成的困难
理论依据、假设
- 认为有潜在语义结构隐含在文档中词语的上下文使用模式中
- 而文档词频共现矩阵在一定程度可以反映词和不同主题之间关系
以文档词频矩阵为基础进行分析
- 得到向量空间模型中文档、词的高维表示
- 并通过投影形成文档、词在潜在语义空间中的相对稠密的低维表示，缩小问题规模
- 通过这种低维表示解释出“文档-语义-词语”之间的联系
数学描述
- LSA将每个文本视为以词语/特征为维度的空间的点，包含语义的文本出现在空间中分布服从某种语义结构
- LSA将每个词视为以文档为维度的空间中点
- 文档由词语构成，词语需要放在文档中理解，体现词语和文档之间的双重概率关系

应用SVD分解

词频共现矩阵$X=(x_{d,t})$：文档、词语的共现频率矩阵
- 其中每行代表文档向量
- 每列代表词语向量
- 元素$x_{d,t}$表示文档$d$中词$t$出现的频率
对词频共现矩阵$X$进行SVD分解得到$X=U \Sigma V^T$
仅保留$\Sigma$中满足阈值要求的较大的前$r$特征值，其余置为0，得到 $\tilde X = \tilde U \tilde \Sigma \tilde V^T$，达到信息过滤、去除噪声的目的
- $A = \tilde X$：矩阵特征分解后的文档词频矩阵近似
- $T = \tilde U$：文档和潜在语义的关系矩阵近似
- $S = \tilde V$：词语和潜在语义的关系矩阵近似
- $D = \tilde \Sigma$：各潜在语义的重要程度

说明

从数据压缩角度：近似矩阵是秩为$K$的前提下，矩阵$X$的最小二乘意义下最佳近似
r值过大会增加运算量，一般选择K使得贡献率满足
- $\theta$：阈值
- $K$：原始词频共现矩阵秩
LSA缺点
- SVD的向量元素有正、有负，性质难以解释
- SVD的实际意义不够明确，难以控制词义据类的效果
- 涉及高维矩阵运算

相似关系计算

潜在语义空间中存在：词-词、文本-文本、词-文本3种关系，可以通过近似矩阵$T, S, D$计算
比较词汇两两相似度：“正向乘法”
$A A^T = T S D^T D S^T T^T = T S^2 T^T$
比较文本两两相似度：“逆向乘法”
$A^T A = T^T S^T D D^T S T = T^T S^2 T$
词汇、文本两两相似度：就是原始矩阵$X$的近似矩阵本身$A$
$A = T * S * D^T$