风险控制

欺诈风险

  • 欺诈:以故意欺瞒事实而诱使对方发生错误认识的故意行为,通常目的是使欺诈者获利
    • 欺诈的行为要素
      • 使人发生错误认识为目的
      • 故意行为
    • 欺诈可以分为
      • 冒用:冒用他人身份,通过生物信息技术等容易发现
      • 伪装:伪造部分信息,相对而言更难识别
    • 金融领域“资金就是生产资料”使得欺诈者的非法获利更容易

欺诈事件

  • 白户:账户信息缺失,没有足够数据对借款人进行风险评估
    • 内部白户:新注册、无申贷历史记录
    • 外部白户:人行征信、三方征信无覆盖
  • 黑户:账户存在逾期、失信、欺诈记录
    • 内部黑户:历史订单逾期
    • 外部黑户:人行征信、三方征信黑
    • 论坛、公开渠道监控
  • 恶意欺诈:账户通过伪造资料、蓄意骗贷
    • 伪造账单流水记录骗取更高额度
    • 恶意欺诈账户可能涉及不良嗜好,如黄赌毒等
  • 身份冒用:伪冒他人身份进行欺诈骗贷
    • 熟人冒用
    • 他人盗用
    • 一般可通过信审、人脸识别、活体验证核验借款人身份
  • 以贷养贷
    • 放大共贷风险杠杆
    • 可通过三方征信机构的多头借贷产品识别
  • 中介欺诈:黑中介哄骗或招揽客户实施骗贷
    • 黑中介利用风控漏洞大规模攻击,造成大量资损
  • 传销:有组织的开展收费并发展多级下线,存在集中骗贷风险
    • 存在老客拉新,从关系网络上具有明显星状结构

欺诈者身份

  • 第一方欺诈:欺诈者用真实身份进行欺诈

    • 严格来说不是欺诈,没有在身份信息上误导平台
    • 应对措施
      • 黑名单
  • 第二方欺诈:企业、渠道内员工进行内部欺诈、内外勾结

    • 即巴塞尔协议操作风险中的内部欺诈
    • 应对措施
      • 内控:权限获取合理、流程上风险分散、操做可追溯
  • 第三方欺诈:非欺诈者自身、企业内部的第三方欺诈

    • 名义借贷者身份信息通过黑色产业链购买、养号,作为黑产军团的一个链条
    • 申请欺诈
      • 账户盗用
      • 资料造假
      • 恶意违约
    • 交易欺诈
      • 账户冒险
      • 养卡
      • 套现
    • 应对措施
      • 对抗性强、低侵入、性价比各种能力和技术
      • 社交网络发现
      • 数据交叉对比
      • 模型客户用户画像

获取非法收益的时间

  • First Payment Default 首轮欺诈

    • 首期失联
  • Bust-out 余额欺诈

    • 短时间将授信刷高再获利离场

收益来源环节

  • 单个客户利润 = 贷款收益 - 资金成本 - 信用成本 - 获客成本
    • 获客成本 - 税收成本
  • 骗贷:信用成本中的风险成本
  • 羊毛:获客成本中的补贴
  • 刷量:获客成本中的广告费
  • 虚假短信:运营费用中的短信流量费

得利方、损失方

  • C骗C:在互金领域不多
    • 即使是P2P,也会有平台兜底
  • B骗C
  • C骗B
  • B骗B

反欺诈

  • 防范欺诈的重要障碍是欺诈难以标注,是通过贷后表现推断贷前 意图

    • 一般只有真正联系到本人或失联,很难有足够证据证明是欺诈导致的逾期,而不是信用导致逾期
    • 欺诈导致逾期往往有以下特征
      • 首逾:最常作为欺诈指标
        • 对第一方、第三方欺诈,往往会发生首逾
        • 对第二方欺诈,考虑到内部人员的考核、规避等 原因,有可能会正常还款1到2期,此类欺诈较难认定
      • 催收追回率更高
  • 反欺诈调研步骤

    • 风险事件发现:具有敏锐的风险嗅觉,发现可疑事件
    • 欺诈场景还原:广泛收集各渠道信息还原欺诈场景,调研分析背后可能原因
    • 风险规则提炼:从欺诈场景中提炼相应专家规则,拦截欺诈
    • 技术算法支持:搜集相应数据,根据数据类型和场景特点寻找合适算法识别欺诈
  • 反欺诈除了常规的策略部署外,还需要考虑人性:延迟模型和规则的效用

    • 抓大放小:允许小资损,随机抽取小比例的欺诈者通过
      • 隐藏防控点,用于积累黑名单
      • 迷惑欺诈团伙
    • 虚假额度:设置虚假授信额度,但借口其他理由不放款

调研欺诈风险渠道

  • 实时大盘监控:适合识别黑中介风险、传销风险等团伙欺诈
    • 设备聚集性风险 LBSWIFI
    • 地域欺诈风险,如朋克村
  • 信审催收反馈
    • 通过电话外呼、核验用户身份、咨询借款动机,根据用户反应发现身份伪冒
  • 论坛舆情监控
    • 对相关论坛、讨论组等检测仪监控,发现市场动向
    • 理解欺诈人群的心理特征、社会身份
  • 黑产卧底调研
    • 线上加入相关社区,站在欺诈账户立场上,找寻风控系统弱点
    • 线下去欺诈案件多发地,实地调研、学习黑产手法

反欺诈专家规则

  • 针对网贷黑中介识别的风险规则

    • 中介通讯录长常常会存储客户号码,并加以备注
    • 因为需要联系客户,运营商数据中往往会留下痕迹
    • 中介网贷申请手法更熟练,在申请页面停留时间短
    • 使用网络可能包含“网贷”等敏感信息
    • 人脸活体验证时存在照片翻拍、视频通话
  • 对反欺诈规则同样可按照一般规则进行评价

    • 规则欺诈命中次数、命中率
      • 规则欺诈命中次数 = 命中触发报警之后被认定为欺诈次数
      • 欺诈命中率 = 规则欺诈命中次数 / 规则报警次数
    • 综合欺诈命中次数
      • 综合欺诈次数 = 规则欺诈命中次数 + 逾期调查认定欺诈数
      • 综合欺诈命中率
    • 考虑到欺诈逾期特征,可以把首逾、催收回账户重点调查
  • 专家规则有高准确率的优点,但是覆盖的人群有限,性价比低,过多会导致规则集冗长,不利于维护

反欺诈算法

  • 应用方向

    • 辅助调查人员从单个案件的调查上升到对团体的调查,提高人工审核效率
    • 通过用户之间的关联关系,给调查人员提供更多分析线索
  • 算法研究方向

    • 基于社交网络的模型
      • 基于通讯录、运营商数据,采用基于图的社区发现算法
    • 基于无监督聚类的模型
    • 知识图谱
    • Embedding 特征构建
      • 基于埋点行为数据,生成 Embedding 特征
    • 文本分类
      • 基于论坛文本、通讯录名称、WIFI 名称分类

First Payment Deliquency模型

  • FPD 模型:以首逾作为目标变量建立模型

    • 假设:欺诈者动机是骗钱,那么第一期就会逾期
    • 入模变量一般是负面特征
      • 安装负面 App 数量
      • 历史逾期次数
  • 基于欺诈的还款表现作为理论支撑,但是也存在一定缺陷

    • 逾期标签存在滞后性,首逾标签存在至少一个月,不利于快速响应
    • 放贷样本同总体有偏,在其上训练模型存在偏差,会低估风险

信用风险

风控规则

风控规则

  • 规则的类型
    • 条件判断:决策路径独立
    • 决策表:决策路径有交集、规律
    • 决策树:决策路径不规律、可能重复检查同一数据
  • 规则引擎:接受数据输入,解释业务规则,根据业务规则、使用 预定义语义做出业务决策

制定原则

  • 监管、公司政策类
    • 年龄准入
    • 行业准入
      • 有金融属性行业
      • 政策敏感娱乐行业
    • 地域准入
    • 场景准入
  • 风控层面
    • 黑名单类
    • 多头类:申请次数
    • 共债类:申请量
    • 反欺诈类
    • 评分拒绝类

规则发现

规则评分

  • 强弱规则

    • 强规则:可作为独立规则,直接指导决策
    • 弱规则:具有一定区分度,但不决定性
  • 弱规则可组合使用,通过评分方式衡量弱规则

    • 使用规则评分衡量规则影响力
    • 规则影响力则可以通过命中坏占比、odds变动衡量
    • 设置阈值,命中规则的评分之和超过阈值才触发报警

笛卡尔积法

  • 步骤
    • 获取变量:定义好坏,关联特征变量
    • 变量筛选:通过IV值等指标快速筛选变量
    • 指标统计:分组统计申请量、放款量、坏账量等指标
    • 透视呈现:分申请率、放款率、坏账率等指标制作交互,如列联表等
    • 规则提取:结合各维度选择满足要求的组别,提取规则逻辑
    • 规则评估:评估跨期稳定性
    • 策略上线

决策树法

  • 决策树法优势
    • 可根据划分依据自动对人群细分
  • 决策树法缺陷
    • 难以调整决策树划分结果
    • 划分结果可能缺乏业务意义
    • 可能出现过拟合现象

规则阈值设置

  • 阈值设置指标

    • Lift
    • 收益/风险比
  • 阈值设置依据

    • 对分类取值,根据 Lift 值、收益/风险比 确定是否作为规则
    • 对有序、数值取值,结合不同阈值点计算 Lift 值、收益/风险比,绘制曲线
      • 曲线平缓变化,则阈值切分收益变化稳定,阈值调整空间比较大
      • 曲线存在明显陡、缓变化,则阈值切分收益在拐点处收益较大,阈值调整空间有限

规则评价

  • 案件调查
    • 用信前报警调查
    • 逾期后调查
    • 根据不同目标,可以对不同的案件区分重点调查

线下 / 离线(标签已知)效果评估

  • 自身效果评估
    • 混淆矩阵
      • TPR/FPR
      • 准确率/误拒率
    • 提升度
      • 拒绝样本中坏样本Lift提升度
      • 通过样本中好样本Lift提升度
    • 通过率、拒绝率
    • 加权收益:好数量 好收益 + 坏数量 坏收益
  • 对比/增量效果评估:和其他数据源比较
    • 有效差异率:查得命中 / 其他通过且为坏样本
    • 无效差异率:查得命中 / 其他拒绝
  • 类似名单类数据评估

线上 / 在线(标签未知)效果评估

  • 规则报警次数、报警率

    • 规则(触发)报警次数:命中规则后账户被拒绝次数
      • 对强规则,即为规则命中次数
      • 对弱规则,小于规则命中次数
    • 规则报警率 = 规则报警次数 / 规则命中次数
    • 规则报警率低、趋势走低表明规则需修正
  • 规则调查次数、调查率

    • 规则调查次数 = 对案件调查分析时调查其次数 (短路调查)
    • 规则调查率 = 规则调查次数 / 规则报警次数
    • 调查率低则因考虑其他规则替代该规则,或or合并规则
    • 规则可以为调查提供提示,而过多不能给调查提供提示的 规则反而浪费时间
  • 规则命中次数、命中率

    • 规则命中次数 = 命中触发报警之后被认定为坏样本数
    • 规则命中率 = 规则命中次数 / 规则报警次数
  • 综合命中次数

    • 综合命中次数 = 规则命中次数 + 逾期调查认定坏样本数
    • 综合命中率 = 综合命中次数 / 规则报警次数
  • 在线效果效果是无法在体系内自评估的,必须引入外部信息,包括:人工审核、额外数据源、扩招回机制等

规则稳定性

通过率波动应对

  • 寻找通过率变动的时点
  • 计算各维度通过率波动程度PSI
    • 定位各策略节点主次影响
    • 分析主要影响策略节点规则、阈值
  • 指导决策

逾期率波动应对

  • 定位逾期率波动客群:存量客户、新增客户
    • MOD

旁路规则

Swap Set Analysis

  • 新、旧模型可用离线指标比较优劣,但最终要在业务中比较通过率、坏账率,二者正相关,swap set 则是反应模型的通过的变化
  • Swap Set Analysis 用于分析新、旧模型更替

    • 根据订单在新、旧模型的通过情况,可以分为三类
      • Swap-in Population:旧模型拒绝但新模型接受
      • Swap-out Population:旧模型接受但新模型拒绝
      • No Change:新、旧模型同时接受、拒绝
    • swap set 角度评价 “新模型优于旧模型”
      • Swap-in Population >= Swap-out Population 且坏账率不升
      • Swap-in Population = Swap-out Population 、坏账率不变,但用户响应率提升
  • 实务中,已上线的旧模型拒绝订单无法获取表现期,只能通过拒绝推断近似得到坏账率

    • 同时间窗 A/B-Test:切分流量让旧模型只打分不拒绝
    • 跨时间窗 A/B-Test:用旧模型在灰度期坏账率替代

扩召回

扩召回:独立召回之外,利用额外模型扩召回部分样本

  • 此处召回一般指通过 成熟 的规则、模型从全体中获取部分样本

    • 召回一般为历史沉淀、专家经验规则
    • 召回的理由充足,但泛化性较差
  • 扩召回和二次排序训练用的样本是相同的,但

    • 二次排序是在召回的样本基础上再次排序
      • 目标:(全局)排序能力
      • 评价标准:AUC、头部准召
    • 扩召回一般是独立于召回建立的模型
      • 目标:学习召回样本的规律,完善召回机制、补充召回样本
        • 因此,扩招回也可以用召回样本作为正样本
        • 扩召回也可用于在线验证新、旧规则的有效性
      • 评价标准:额外召回准确率(对召回样本的学习能力)
        • 事实上,若采用召回样本作为正样本,则 AUC 为 1 的扩召回是无价值的,只是复现了召回
      • 特征:可能包含一些专供于扩召回使用的特征
      • 扩召回的正样本可能还包括人工举报、隐案等

准入规则

  • 风控准入规则应为强拒绝规则
    • 不满足任何规则均会被拒绝
    • 规则无需经过复杂的规则衍生
    • 策略理念:验证借款人依法合规未被政策限制
    • 风控流程中首道防线
      • 准入策略已经趋同
      • 但对不同信贷场景仍应采取更适应业务的准入规则

基础认证模块

  • 风控基础认证模块:验证申请人真实性
    • 身份证信息验证
    • 人脸信息验证
    • 银行卡四要素验证
    • 运营商三要素验证

按数据来源分类

  • 个人信用类
    • 个人基本信息
      • 年龄准入
      • 地区准入
      • 行业准入
    • 经济能力信息
      • 月收入
      • 流水
    • 社交信息
  • 设备信息
    • 短信
    • APP安装信息
  • 外部数据源
    • 征信报告
    • 外部黑名单
  • 行为数据
    • 活动轨迹
    • 登录、注册时间
  • 评分卡规则

黑、白名单

白名单

  • 白名单:风险相对可知可控的客户构成的内部名单

    • 业务初期:通过白名单控制入口
      • 控制放量节奏
      • 降低风险
      • 通过宽松风控规则提高审批通过率
      • 通过贷前策略规则筛选白名单,协助调整贷前策略
    • 业务中期:部分客户走特殊的贷前审批流程,满足特殊审批 要求
  • 白名单筛选方式:有部分存量数据情况下

    • 联合建模:缺乏特定业务场景预测变量,与外部机构建模 补充预测变量
    • 内部数据探索:寻找与违约表现相关性较强的特征规则
      • 类似场景、产品
      • 纯粹凭借专家经验规则
    • 引入外部数据匹配

黑名单

  • 黑名单:还款能力、还款意愿不能满足正常客户标准

    • 通常多个好客户才能覆盖坏客户的本金损失
    • 通过黑名单客户全部拒绝,但是对于导流助贷机构,业务 核心是流量和客户质量,拒绝全部黑名单客群成本巨大, 可能会随机、结合评分放过部分
  • 黑名单建立

    • 建立黑名单参考维度
      • 还款表现
      • 渠道
      • 利率
      • 失信名单
    • 黑名单主体
      • 身份证
      • 手机号
      • 邮箱
      • 银行卡
      • IP

三方黑名单

  • 自建黑名单命中率不高(二次申请概率低),且需要长期 积累

  • 不同三方黑名单往往会有其侧重点

    • 团伙欺诈名单
    • 公安、司法名单
    • 被执行人名单
  • 三方黑名单效果也有好有坏,对效果较差、但通过率影响 不大黑名单也可以考虑保留

    • 黑名单一般是查得收费,外挂较多黑名单不会提升成本
    • 黑名单可视为容错机制,黑名单不一定能所有样本上 表现优秀,保留其可防止欺诈团伙等集中攻击
  • 同样值得注意的是,黑名单的质量需要考核

    • 非公信黑名单定义各家不同
    • 名单没有明确的退出机制
    • 黑名单按查得收费,有些黑名单会掺沙子
    • 有些名单提供商同时作为信贷放贷方,有动力将优质客户 截留,将其添加进名单

风控中数据分析

数据质量

特征数据挖掘

  • 确定分析目标
  • 假设分析
    • 对问题提出可能的假设
    • 评估假设的分析过程
  • 特征获取、关联分析
    • 找出信息片段之间直接、间接联系
    • 已知信息片段,寻找直接、间接联系的信息片段
  • 假设验证、模式归纳
    • 根据分析结论评估假设
    • 归纳规律特点

统计类特征构造

  • RFM 特征框架思想是构造统计类特征的基础

    • Recency:最近一次间隔
    • Frequency:最近一段时间次数
    • Monetary:最近一段时间金额
  • 结合业务统计、分析数据

    • 了解数据采集逻辑
    • 定义观察期有效性
      • 不同用户的数据厚薄程度(实际观察期长短)可能不同
  • 统计类特征构造方式

    • 数量统计类特征
    • 占比统计类特征
      • 去除量纲影响
      • 衡量用户行为偏好:时间偏好、类别偏好
    • 趋势统计类特征
      • 一般通过斜率衡量变化趋势
    • 稳定性衍生特征
      • 变异系数

特征变量评估

  • compliant 合规性
    • 法律允许
    • 来源可靠
  • stable 稳定性
    • 数据采集稳定性
    • 特征变量稳定性
      • 数据源采集稳定是变量稳定性的基本前提
      • 变量是模型的基础,数据不稳定必然导致模型稳定性差
  • available 可得性
    • 数据未来是否可以继续采集、计算
    • 涉及产品设计流程、用户授权协议、合规需求、模型应用环节
      • 业务流程更改导致埋点数据弃用、数据采集后移
      • RFM特征时间窗口支持
  • interpretable 可解释性
    • 数据是否具有明确、清晰的业务含义,便于理解
  • logical 逻辑性
    • 不容易绕过,逻辑上应该被采用

外部数据业务指标

  • 外部数据:三方平台根据自身业务场景所积累的数据,经脱敏 加工后对外输出,主要包括上述的信贷类数据、消费类数据
  • 性价比
    • 结合技术、业务效果、数据价格,综合计算性价比
    • 计价方式
  • 覆盖范围
    • 覆盖率
    • 查得率:能匹配用户数/总用户数

名单类数据

  • 自身效果评估
    • 混淆矩阵
      • TPRFPR
      • 准确率/误拒率
    • 提升度
      • 拒绝样本中坏样本提升度
      • 通过样本中好样本提升度
    • 通过率、拒绝率
  • 对比/增量效果评估:和其他数据源比较
    • 有效差异率:查得命中 / 其他通过且为坏样本
    • 无效差异率:查得命中 / 其他拒绝
  • 线下带标签场景的评估

数据描述

  • Exploratory Data Distribution 数据分布
    • 样本与总体分布应大致相同,则样本分布应保持稳定,因此 各特征统计值更应保持稳定
    • 按照自然月、特征维度,分析特征统计值变动
  • Missing Rate 缺失率
    • 缺失成因:随机缺失、系统性缺失
    • 缺失变动:特征缺失率持续升高,则预期未来数据采集率 下降
  • Unique Value
    • 若某固定值占比过高,则变量区别度往往很低
  • 特殊值检查
    • 缺失值如何表示
    • 零值的业务含义

稳定性

  • PSI:测试集、训练集间
    • 比较训练集、测试集变量的波动性
    • 无法反应细节原因,还需要 EDD 上分析

信息量

  • Coefficient of Variation 变异系数
    • 过小则区分度差
    • 过大可能不稳定
  • IV
    • 评估变量预测能力
    • IV值过高时注意信息泄露问题
  • RF/XGB 特征重要性
    • 适合快速筛选特征
    • 此重要性只有全局可解释性,无法对单个案例做出解释

信息重复

  • Variable Cluster 变量聚类:评估聚类意义上变量的“接近”程度
    • 层次聚类
  • Linear Correlation 线性相关性:评估变量间的线性相关性
    • Pearson Correlation Coefficient
    • 变量若通过WOE方式参与建模,则可以使用WOE值计算相关系数
  • Multicollinearity 多重共线性
    • VIF
  • 变量显著性
    • p-value
  • 建模(线性)中应该避免是参与建模的变量之间过强的线性相关,所以应该检查的是参与建模变量之间的线性相关
  • 变量衍生值、原始值相关性不一致是衍生非线性导致,不应减弱使用衍生值变量检查的合理性

样本数据质量

  • 代表性(狭义)
    • 数理统计最基本逻辑链是通过样本推断总体,因此样本对总体代表性决定推断上限
    • 根据标目标客群、好坏比例采样、赋权
      • 简单随机抽样,保持内部真实客群、好坏比例
      • 客群分层抽样,适应不同客群
      • 好坏不等比抽样,建模之后再按权重还原,充分捕捉 坏样本特征
  • 稳定性
    • 可用各 Vintage 内坏占比、lift 值、odds 等指标 PSI 衡量
    • 样本稳定性决定推断结果稳定性
    • 样本客群应该足够稳定,受节假日、周期影响小
  • 连续性
    • 样本时间连续便于建模中划分训练集、测试集(避免数据穿越)

特征分类

  • 还款能力

    • 收入:自填、三方
    • 负债:内部负债、外部负债、多头借贷
    • 学历:自填、三方
  • 还款意愿

    • 申贷行为:申贷记录、贷前贷后申贷行为变化
    • 履约行为:还款记录、逾期记录
    • 催记行为:催收记录

贷前数据

  • 主动数据/表填信息:客户主动提供
  • 被动数据:主动采集

资质、标签类数据

  • 客观数据:无第三方欺诈情况下可信

    • 性别
    • 年龄
    • 身份证号
    • 手机号
    • 手机号在多少个平台用户的通讯录中有存储
    • 手机号归属地
    • 户籍地址
    • 户籍地址是否来自非城市:除一线城市外,用身份证 地址是否包含“村”判断
    • 银行卡号
    • 银行卡发卡行
    • 签发机关
  • 主观数据:不可信,可对这部分数据做交叉验证,检查是否前后矛盾

    • 紧急联系人号码
    • 紧急联系人消息
    • 紧急联系人是否为平台用户
    • 学历
    • 工作
    • 月收入
    • 公司
    • 负债
    • 地址
    • 紧急联系人手机号归属地是否和账户手机号归属地一致
    • 手机联系人手机号归属地是否和申请人户籍地一致

信贷类数据

  • 人行征信报告
  • 三方征信数据:通过各机构贷前审批、贷后管理等记录
    • 收入数据
    • 负债数据
      • 多头负债
      • 共债
    • 多头借贷数据
    • 黑名单
    • 信用评分
    • 原始数据(极少)

生活行为类数据

  • 消费行为:资金用途,是否专款专用、不良用途
    • 信用卡、借记卡账单和流水
    • 电商消费记录数据
  • 收入能力:收入直接影响还款能力
    • 流动资产:工资、公积金
    • 固定资产
  • 出行行为数据
  • 短信通道:识别内容,提取放款、逾期、催收等特征
  • 支付通道:通过支付代扣记录,提取用户收入、支出等 现金流
  • 手机输入法:识别内容,提取全方位信息

设备行为类数据/埋点数据

  • 埋点数据量庞大而杂乱

    • 需要结合业务逻辑分析,从账户角度思考,挖掘有用的特征
  • 行为类数据为弱金融属性数据,多用于交叉验证

    • GPS与手机号归属地一致
    • IP与GPS所在城市是否一致
    • IP与手机号归属地是否一致
    • 工作时间的LBS是否与公司地址一致
    • 非工作时间的LBS是否与家庭地址一致

设备特征

  • 设备恒定特征

    • 是否root
    • 是否hook
    • 是否为实体手机
    • 是否为一键新机
    • 是否为二手手机:欺诈更倾向于使用二手手机
      • 系统文件
      • 是否恢复出厂设置
    • 品牌
    • 价格
    • 操作系统
    • 设备迁移方向
  • 设备易变特征

    • 传感器参数:在互联网反欺诈中,常用于侦测非实体手机, 而金融场景中更多是真机
      • 角度传感器
      • 压力传感器
    • 电压、电量:手机电压、电量呈上升趋势,表示账户资金 需求更急迫

行为数据

  • 活动轨迹:取决于埋点的精细程度

    • 夜间申请
    • User-agent
    • 点击次数
      • 申请前次数低于大盘:账户对产品了解,意图明显
      • 授信后点击次数过高:账户对产品有犹豫
    • 激活+粘贴
      • 正常申请流程中较少存在中途退出申请的必要
      • 而中介更可以多次切换应用,复制粘贴
    • 截图
      • 中介更有可能截图制作教程、展示流程等
    • 时间间隔:更适合作为欺诈模型参数
      • 注册到申请
      • 登录到申请
      • 各申请步骤
      • 申请到完成
      • 授信到用信
      • 上次申请与本次申请时间间隔
    • 切换设备登陆
    • 身份证提交次数
  • 内容偏好

环境信息

  • LBS信息:可以提高观察粒度保证容错率
    • GPS所在城市
    • LBS是否在非城市
    • 同LBS是否多个申请
    • LBS周围是否多个申请
  • 网络信息
    • 网络类型:Wifi/4g/3g
    • 相同Wifi MAC的申请人数
    • Wifi名称是否命中风险关键词
  • IP地址
    • 相同IP的申请人数
    • IP所在城市
    • IP是否来自数据中心

贷中、贷后指标

贷中数据维度

  • 内部信贷行为数据
    • 申贷行为
      • 历史申贷记录
      • 贷前、贷后申贷行为
    • 还款
      • 分期期数
      • 首期逾期天数
      • 当前月正常拆分扣款总次数
      • 当前3个月内还款最大金额
      • 历史最大逾期天数
      • 首次成功还款时间距离当前时间
    • 催收
      • 催收记录
    • 履约历史
      • 提前还款:资金充足、重视信用记录
      • 习惯性逾期:手头紧张、不够重视信用记录
  • 活跃行为
    • 失联
    • 用户登录
  • 账户特征
    • 授信额度使用率
    • 代偿余额

时间窗口

obeservation_and_performance

  • Observation Point观察点:账户申请的时间段,该时间段内 客户可能用于建模

    • 从风控应用角度,观察点即对账户授信审核的时点,此时 能够获得所有信息只能在观察点前的观察期
  • Observation Window观察期:构造特征的事件窗口

    • 观察期选择依赖用户数据的厚薄程度,数据越厚,可提取 信息越全面、可靠
  • Performance Window表现期:定义好坏标签的时间窗口

    • 风险需通过一定时间窗口才能表现,即信贷风险具有滞后性
    • 表现期越长
      • 信用风险暴露越彻底
      • 也意味着观察期离当前越远,用以提取样本特征的历史 数据越陈旧,建模样本和未来样本差异越大
    • 应当选择合适的表现期以覆盖足够多的坏客户

说明

  • 表现期的选择

    • 对信用卡场景的稳定客群、长期限产品,可用滚动率、账龄 分析确定表现期、好坏
    • 但对小额信贷产品,实务中一般结合产品期限,沿用常用 指标,如:表现期设置为产品期限一半
  • 建模样本窗口选择

    • 特征覆盖度:保证数据厚薄程度相同
    • 客群没有大幅变动
      • 特征
      • 标签:逾期、出催等

Month on Book/MOB:账龄

  • 统一观察点账龄:统计信息为观察点实时信息,但会导致 订单表现期不同

    • MOB0:放款日至当月月底
    • MOB1:放款后第二个完整月份
    • MOB2:放款后第三个完整月份

    mob_at_a_specified_time_point

  • 统一表现期账龄:保证订单表现期相同

    • MOB1:放款日开始30天
    • MOB2:放款日开始30天至60天

    mob_spanning_specified_time_range

逾期、不良

  • Payment Delinquency:逾期
    • First Payment Delinquency/FPDx:首期逾期(天数)
    • Current Payment Delinquency/CPDx:当前逾期
    • Historical Payment Delinquency/HPDx:历史逾期
  • Day Past Due/DPDx:逾期天数

逾期期数

  • C/M0:当前未逾期
  • M1:DPD1 - DPD30
  • M6:逾期151-180日
  • M7/Bad Debts:逾期180日以上
  • 对信用卡场景而言,M0为账单日到还款日之前,而对信贷 场景,M0没有对应时间段

逾期率

  • 两种计算口径
    • 逾期率 = 逾期订单数 / 总订单数
    • 逾期率 = 逾期订单金额 / 总订单金额
  • 逾期口径调整
    • 逾期统计时间窗口:历史、当年
    • 逾期后还上
    • 担保、代偿
    • 多期逾期是否计算剩余未还
  • 总数调整
    • 统计时间窗口:历史、当年
    • 已发放还是余额
  • 客观反映风控、资产质量的观察期选择
    • Coincidental Delinquency:固定观察时点,以截至 观察时点前逾期金额、余额计算
    • Lagged Deliquency:按照账龄分析方法,将各月份 逾期金额、金额计算真实逾期率

不良率

  • 不良率 = (次级+可疑+损失)/ 总
    • 次级、可疑、损失在银行内有明确规定,但不完全按照逾期 天数划分
    • 同体系内内比较不良可行,但和不同体系间没有可比较性

Expected Loss

  • Expected Loss预期损失

  • Probabilty of Default违约概率

    • 资产质量越差,违约概率越高
    • 可以把对应逾期状态至呆账状态,各状态间迁移率链式相乘 得到违约概率
  • Loss Given Default违约损失率:账户违约后,能够回收的 本金比例

  • Bad Debt Reserve坏账准备金/拨备

    • 把未偿清金额按照一定准备金比例储备,用于覆盖预期的 未来呆账损失
    • 应该等于预期损失

资产质量分析

  • 资产质量:根据逾期天数将资产划分为不同等级
账龄分析 滚动率分析 迁移率分析
观察点 多个观察点 单个观察点 多个观察点
观察窗口 观察点后各期 观察点前后一段期限 观察点后各期
工具 Vintage曲线 迁移矩阵 迁移率
分析要素 各观察点、各期逾期情况 各逾期状态间迁移情况 各期、各逾期状态下沉情况

Vintage Analysis

账龄分析:对不同时点资产分别跟踪,按照账龄长短对齐后对比, 分析不同时点贷款贷后质量

vintage_analysis_sample

  • 用途
    • 确定账户成熟期/稳定期
      • 以逾期率趋于稳定所需时间作为判断客户好、坏区分 所需时间
      • 辅助定义表现期/成熟期
    • 确定资产质量
      • 以曲线平缓处对应逾期率衡量资产质量
    • 分析变化规律:分析逾期率变化情况
      • 前几期逾期率上升快:短期风险未能控制,欺诈风险高
      • 曲线一直上升:信用风险识别能差
    • 分析影响因素(资产质量),指导风控策略调整
      • 风控策略收紧放松
      • 客群变化
      • 市场环境
      • 政策法规等
  • vintage起源于葡萄酒品质分析,vintage即指代葡萄酒的 批次标签,每年对各批次抽样、记录即得到vintage曲线

Roll Rate Analysis

滚动率分析:利用观察期、表现期违约程度的状态转移矩阵分析 违约程度变化情况

roll_rate_analysis_transition_matrix

  • 滚动率分析步骤

    • 准备
      • 确定数据源:一般为还款计划表
      • 定义逾期状态
    • 统计观察期:以观察点为截至时间,统计客户在观察期最长 逾期期数,并据此对用户分级C、M1、M2等
    • 统计表现期:以观察点起始,统计客户在表现期内最长逾期 数,并据此对用户分级C、M1、M2等
    • 根据以上数据绘制列联表、计算频率
    • 为排除观察点选择影响,选择多个观察点重复以上
  • 滚动率分析用途

    • 分析客户好坏程度、变化情况,确定客户好坏界限

Flow Rate Analysis

迁移率分析:利用违约程度变化计算迁移率,分析违约程度变化规律

flow_rate_analysis

  • Flow Rate迁移率:资产等级下滑的比例

    • 迁移率 = 前等级逾期金额到下一等级逾期金额的转化率
      • M0-M1 = 当月进入M1余额 / 上月末M0余额
  • 核心假设

    • 处于某一逾期状态的账户,一个月之后,必然从良为非逾期 账户,或恶化为下一级逾期账户
    • 状态不会有跃迁,所以一期仅有一组下沉迁移率
  • 迁移率分析步骤

    • 准备
      • 确定数据源:一般为还款计划表
      • 定义逾期状态
    • 计算各月份、各逾期状态之间迁移率
    • 计算不同月份平均迁移率
    • 根据平均迁移率和不良资产回收率,计算净坏账损失率
  • 作用

    • 展示账户整个生命周的变化轨迹
      • 预测未来坏账损失:各级迁移率乘积得到最终损失率
      • 计算坏账计提标准、资产拨备
    • 观察迁移率发展轨迹
      • 分析贷款催收率、催收力度
      • 监控坏账发展倾向和催收效果
    • 确定好坏客户标准
      • 即选择迁移率较高的状态作为划分点

特征选择

Feature Selection

特征选择:从特征集合中选择最具统计意义的特征子集

  • 特征分类

    • relevant feature:相关特征,对当前学习任务有用的属性、特征
      • 特征选择最重要的是确保不丢失重要特征
    • irrelevant feature:无关特征,对当前学习任务无用的属性、特征
    • redundant feature:冗余特征,包含的信息可以由其他特征中推演出来
      • 冗余特征通常不起作用,剔除可以减轻模型训练负担
      • 若冗余特征恰好对应完成学习任务所需要的中间概念,则是有益的,可以降低学习任务的难度
  • 特征选择会降低模型预测能力,因为被剔除特征中可能包含有效信息

    • 保留尽可能多特征,模型性能会提升,模型更复杂、计算复杂度同样提升
    • 剔除尽可能多特征,模型性能会下降,模型更简单、降低计算复杂度
  • 特征选择原因

    • 维数灾难问题:仅需要选择一部分特征构建模型,可以减轻 维数灾难问题,从此意义上特征选择和降维技术有相似动机
    • 剔除无关特征可以降低学习任务难度,简化模型、降低计算复杂度
  • 特征选择方法可以分解为

    • 特征子集搜索
    • 特征子集评价:能判断划分之间差异的机制都能作为特征子集的准则

特征选择过程

feature_selection_procedure

  • generation procedure:产生过程,搜索特征子集
  • evaluation function:评价函数,评价特征子集优劣
  • stopping criterion:停止准则,与评价函数相关的阈值,评价函数达到与阈值后可以停止搜索
  • validation procedure:验证过程,在验证数据集上验证选择特征子集的有效性

特征子集搜索

  • 遍历:从初始特征集合选择包含所有重要信息的特征子集

    • 适合没有先验(问题相关领域)知识的情况
    • 特征数量稍多会出现组合爆炸
  • 迭代:产生候选子集、评价优劣,基于评价结果产生下个候选子集

    • 不断迭代,直至无法找到更好的后续子集
    • 需要评价得子集数量较少
    • 可能无法找到最优子集

迭代搜索

  • 给定特征 $A={A_1, A_2, \cdots, A_d}$,将每个特征视为候选子集(每个子集只有一个元素),对 $d$ 个候选子集进行评价

  • 在上轮选定子集中加入特征,选择包含两个特征的最优候选子集

  • 假定在 $k+1$ 轮时,最优特征子集不如上轮最优的特征子集,则停止生成候选子集,将上轮选定特征子集作为特征选择结果

  • Forward Feature Elimination:前向特征选择,逐渐增加相关特征
  • Backward Feature Elimination:后向特征选择,从完整特征集合开始,每次尝试去掉无关特征,逐渐剔除特征
  • Bidirectional Feature Elimination:双向特征选择,结合前向、后向搜索
    • 每轮逐渐增加选定的相关特征,特征在后续迭代中确定不会被去除,同时减少无关特征

特征子集评价

特征子集评价:能判断划分之间差异的机制都能作为特征子集的选择准则

  • 方差

    • 方差越大,特征对预测值区分能力越强
  • 相关系数

    • Pearson 积矩相关系数
    • Kendell 秩相关系数
    • Spearman 秩相关系数
    • 卡方统计量
  • 距离指标

  • 划分增益

    • Gini 指数
    • IG 信息增益/互信息
    • 信息增益比
  • 排序指标

    • AUC

特征问题定位

  • 模型出现过拟合问题时,可能是特征工程步骤中出现信息泄露(数据穿越、标签入特征),一般通过单变量特征评价指标定位有问题的特征
  • 数据泄露涉及的特征的定位(经验)
    • 线性模型
      • 单变量 AUC 值:超过 0.8 则高度可疑
    • 非线性模型(树)
      • 基于信息增益的特征重要性

Filter

过滤式:对数据集进行的特征选择过程与后续学习器无关,即设计统计量过滤特征,不考虑后续学习器问题

  • 通过分析特征子集内部特点衡量特征优劣,描述自变量、目标变量的关联

  • 特点

    • 时间效率高
    • 对过拟合问题较稳健
    • 倾向于选择单个冗余特征,没有考虑特征之间相关性

单特征过滤

单特征过滤:直接选择合适特征子集评价标准处理各特征,选择满足要求特征

Relief: Relavant Features

Relief 方法:设置相关统计量度量特征重要性

  • 特征子集对应统计量中每个分量对应一个初始特征,特征子集重要性由子集中每个特征对应的相关统计量分量之和决定

  • 特征选择方法

    • 指定阈值 $k$:选择比 $k$ 大的相关统计量分量对应特征
    • 指定特征个数 $m$:选择相关统计量分量最大的 $m$ 个特征
  • 只适合二分类问题,扩展变体 Relief-F 可以处理多分类问题

Wrapper

包裹式:把最终要使用的学习器性能作为特征子集评价标准,为给定学习器选择最有利其性能、特化的特征子集

  • 优点
    • 直接针对特定学习器进行优化
    • 考虑了特征之间的关联性,通常训练效果较过滤式好
  • 缺点
    • 特征选择过程中需要多次训练学习器,计算效率较低
    • 观测数据较少时容易过拟合

Las Vegas Wrapper

LVW:在 Las Vegas Method 框架下使用随机策略进行子集搜索,以最终分类器误差作为特征子集评价标准

  • 包含停止条件控制参数T,避免每次子集评价训练特征子集开销过大
  • 若初始特征数量很多、T设置较大、每轮训练时间较长,算法执行很长时间都不会停止
    • LVM 可能无法得到解(拉斯维加斯算法本身性质)

递归特征消除法

递归特征消除法:使用基模型进行多轮训练,每轮训练消除若干权值系数的特征,再基于特征集进行下一轮训练

Stepwise变量选择

  • 前向变量选择
  • 后向变量选择
  • 前向-后向变量选择
  • 最优子集选择

Embedded

嵌入式:将特征选择、学习器训练过程融合,在同一优化过程中同时完成,即学习器训练过程中自动进行特征选择

  • 优点:兼具筛选器、封装器的优点
  • 缺点:需要明确好的选择

正则化约束

$L_1$、$L_2$ 范数:主要用于线性回归、逻辑回归、SVM 等算法

  • Ridge:$L_2$ 范数
  • Lasso:$L_1$ 范数
    • 除降低过拟合风险,还容易获得稀疏解
    • 参数 $\lambda$ 越大,稀疏性越大,被选择特征越少
  • SVM、逻辑回归
    • 超参参数范数权重越大,稀疏性越大,被选择特征越少

决策树

决策树思想:决策树自上而下选择分裂特征就是特征选择

  • 所有树结点划分属性根据先后顺序组成的集合就是选择出来的特征子集
  • 参见ml_models/unlinear_models/decision_tree

神经网络

神经网络:训练时同时处理贡献度问题,不重要特征权重被剔除

特征提取

Feature Extraction/Feature Construction

特征提取/构建:把原始数据中转换为具有物理、统计学意义特征,构建新的人工特征

  • 主观要求高

    • 对问题实际意义、相关领域有研究:思考问题形式、数据结构
    • 对数据敏感:需要观察原始数据
    • 分析能力强
  • 目的:自动构建新特征

    • 信号表示:抽取后特征尽可能丢失较少信息
    • 信号分类:抽取后特征尽可能提高分类准确率
  • 方法

    • 组合属性:混合属性创建新特征
    • 切分属性:分解、切分原有特征创建新特征,如将时间戳分割为日期、上下午
  • 特征工程和复杂模型在某些方便不冲突

    • 虽然很多复炸模型能够学习复杂规律,类似自行构造特征
    • 但是考虑到计算资源、特征数量、学习效率,人工经验构造衍生特征是必要且有益的
  • 特征选择:表示出每个特征对于模型构建的重要性
  • 特征提取:有时能发现更有意义的特征属性
  • 有时从额外划分特征构建,其相较于特征提取,需要人为的手工构建特征,偏经验、规则

通用特征提取

数值型

  • 幅度调整:提高 SGD 收敛速度
    • 归一化
    • 标准化
  • 数据变换
    • 数据标准化(参见 data_preprocessing
    • 二阶、三阶变换
  • 数据离散化:连续值分段
    • 等距切分:各类分布不均
    • 分位数切分:各类分布均匀,但异质性不均
  • 平方、开根:增加非线性化

分类型

  • one-hot 编码:赋予各特征等权
  • hash 技巧:针对文本类别数据,统计文本词表、倾向
  • 多分类转二分类:输入变量类别合并,超类
    • twoing 策略:使两个超类差异足够大的合并点(分割点)
    • ordering 策略:对有序类型,只有两个连续基类才能合并

统计型

  • 统计特征
    • 跨记录聚集:特征取值在样本全体中的情况
      • 分位线
      • 比例
      • 次序
      • count(出现次数)
      • 均值
      • 方查
    • 记录内聚合:属于同记录的同类特征统计指标
      • 均值
      • 方查
  • 时序特征
    • 视为连续型:持续时间、间隔时间
    • 视为离散值:一年中某些时间段

组合特征

  • 特征拼接:GBDT 生成特征组合路径
  • 特征冲突验证:匹配、等于、不等于
  • 关联特征:图传播
    • 依赖于内部、外部关联图数据,如:
      • 账户作为节点:已能确认正、负例样本
      • 交易、社会关系作为边
      • 交易频次、金额作为权重
    • 图传播可以考虑多次传播,即考虑前一次的传播结果中置信度较高者作为下次的起始节点
  • 特征交叉衍生:探索的范围较大,人工特征交叉衍生时建议最后考虑,根据经验:
    • 优先从单变量评价指标较好的特征开始
    • 连续特征内部可能会做交叉衍生
    • 但离散特征内部往往不做交叉衍生
      • one-hot 后特征对应维数较大
      • 单个维度信息量不多,交叉后维数爆炸,不适合某些模型,如:树模型
    • 从离散、连续特征中 分别选择 进行交叉
      • 交叉方式:连续特征为记录内聚合特征时,按离散特征分组聚合
      • 优先考虑此种交叉衍生

降维

Principal Component Analysis

PCA:主成分分析,找到数据中主成分,用主成分来表征原始数据,达到降维目的

  • 思想:通过坐标轴转换,寻找数据分布的最优子空间
    • 特征向量可以理解为坐标转换中新坐标轴方向
    • 特征值表示对应特征向量方向上方差
      • 特征值越大、方差越大、信息量越大
      • 抛弃较小方差特征
  • PCA缺陷:线性降维方法
    • KPCA:核主成分分析,核映射对PCA进行扩展
    • 流形映射降维方法:等距映射、局部线性嵌入、拉普拉斯 特征映射

步骤

  • 对样本数据进行中心化处理(和统计中处理不同)
  • 求样本协方差矩阵
  • 对协方差矩阵进行特征值分解,将特征值从大至小排列
  • 取前p个最大特征值对应特征向量作为新特征,实现降维

Linear Discriminant Analysis

LDA:线性判别分析,寻找投影方向,使得投影后样本尽可能按照 原始类别分开,即寻找可以最大化类间距离、最小化类内距离的方向

  • 相较于PCA,LDA考虑数据的类别信息,不仅仅是降维,还希望 实现“分类”

  • 优点:相较于PCA

    • LDA更适合处理带有类别信息的数据
    • 模型对噪声的稳健性更好
  • 缺点

    • 对数据分布有很强假设:各类服从正太分布、协方差相等, 实际数据可能不满足
    • 模型简单,表达能力有限,但可以通过核函数扩展LDA处理 分布比较复杂的数据
  • Fisher判别分析

Independent Component Analysis

ICA:独立成分分析,寻找线性变换$z=Wx$,使得$z$各特征分量 之间独立性最大

  • 思想
    • 假设随机信号$x$服从模型
      • $s$:未知源信号,分量相互独立
      • $A$:未知混合矩阵
    • ICA通过观察$x$估计混合矩阵$A$、源信号$s$,认为源信号 携带更多信息
  • 若原信号非高斯,则分解唯一,否则可能有无穷多分解
  • 因子分析,也称Blind Source Separation(盲源分离)

算法

  • 大多数ICA算法需要进行数据预处理:先用PCA得到主成分$Y$, 再把各个主成分各分量标准化得到$Z$满足

    • $Z$各分量不相关
    • $Z$各分量方差为1
  • FastICA算法:寻找方向$w$使得随机变量$w^T z$某种 “非高斯性”度量最大化

    • 四阶矩

图像特征提取

  • 提取边缘、尺度不变特征变换特征
  • 以下是传统的图像特征提取方法,现在应该都是CNN进行特征 提取、分类
  • 详情参见machine_learning/cv

LBP特征

  • Sobel Operator
  • Laplace Operator
  • Canny Edge Detector

基于角点

  • Moravec
  • Harris
  • GoodFeaturesToTrack
  • FAST

基于尺度空间

  • Scale-Invariant Feature Transform
  • Speeded Up Robust Feature
  • Brief
  • Oriented Brief

HOG特征

方向梯度直方图特征:通过计算、统计图像局部区域梯度方向直方图 实现特征描述

步骤

  • 归一化处理:图像转换为灰度图像,再利用伽马校正实现
    • 提高图像特征描述对光照、环境变量稳健性
    • 降低图像局部阴影、局部曝光、纹理失真
    • 尽可能抵制噪声干扰
  • 计算图像梯度
  • 统计梯度方向
  • 特征向量归一化(块内)
    • 克服光照不均匀变化及前景、背景对比差异
  • 生成特征向量

文本特征提取

  • 具体参见ml_specification/natural_language_processing/#todo

词袋模型

词袋模型:将文本以词为单位切分token化

  • 文章可以表示为稀疏长向量,向量每个维度代表一个单词

    • 针对有序语句,将单词两两相连
    • 维度权重反映单词在原文章中重要程度
      • 通常使用TF-IDF统计量表示词权重
  • TF-IDF

    • $TF(t, d)$:单词$t$在文档$d$中出现的频率
    • $IDF(t)$:逆文档频率,衡量单词对表达语义的重要性
      • 若单词在多篇文章中出现过,则可能是通用词汇,对区分 文章贡献较小,$IDF(t)$较小、权重较小

N-gram模型

N-gram模型:将连续出现的$n, n \leq N$个词组成的词组N-gram 作为单独特征放到向量中

  • 相较于词袋模型,考虑单词组合意义
  • word stemming:将不同词性单词统一为同一词干形式
    • 同一个词可能有多种词性变化,却拥有相同含义

Word-Embedding模型

词嵌入模型:将每个词都映射为低维空间上的稠密向量

  • Word2Vec:常用词嵌入模型,底层神经网络

    • Continuous Bag of Words:根据上下文词语预测当前词 生成概率
    • Skip-gram:根据当前词预测上下文中各个词的生成概率
  • 实际上直接使用矩阵作为源文本特征作为输入进行训练,难以 得到好结果,往往需要提取、构造更高层特征

参数优化

参数初始化

  • 合适参数初始化可以加速模型训练

    • 避免反向传播的梯度信息被放大、缩小
    • 导致出现梯度爆炸、消失
  • 参数初始化值满足如下条件,则训练过程中能较好防止梯度信号被放缩

    • 激活值均值为 0
    • 每层激活值方差保持一致

常数(零值)初始化

常数初始化:将所有权值初始化为常数

  • 任意常数初始化方法性能都不好,甚至无法训练

    • 反向传播算法更新参数时,各参数各维度导数一致、更新后权值一致
    • 各神经元在演化过程中对称,无法学习不同特征,退化为单神经元
  • 在激活函数选择线性激活函数时

    • 过大的初始化权重可能导致梯度爆炸
    • 过小的初始化值可能导致梯度消失

随机初始化

随机初始化:随机生成参数

  • 权重 $W$:均值 0、方差 1 的正态分布生成,并乘以较小常数(如:0.01)

    • 权值被初始化不同值,解决零值初始化存在网络退化问题
    • 但较小权值可能导致梯度弥散,无法学习
  • 偏置 $b$:初始化为 0

    • 帮助变换系统初始处于线性域,加快梯度传播

Xavier 初始化

Xavier 初始化:适合 tanh 激活函数的参数初始化方式

  • $n^{(l)}$:第 $l$ 层神经元数量

He 初始化

He 初始化:适合 ReLU 激活函数的参数初始化方式

  • 基于 Xavier 初始化在 ReLU 上的改进,实际中二者都可以使用

超参搜索

Bayesian Optimization

抽样方法

数据抽样

  • 抽样作用

    • 提高速度、效率,将精力放在建立模型、选择模型上
    • 帮助分析特殊性问题:有些问题涉及到破坏性试验,抽取产品的一部分做耐用性实验经济有效
    • 降低成本:合理抽样可以保证在大部分信息不丢失情况下,降低数据采集、社会调查成本
  • 从效率、成本角度看,适当、合理抽样有必要

    • 数据越多信息越丰富、数据量尽量多为好
    • 抽样可以降低求解的时空代价,但是可能会丢失部分信息,可能会使分析结果产生偏差
    • 在分析阶段,若抽样误差能够接受,完全可以抽样
  • 样本应能充分代表总体

    • 一般样本容量越大,和总体的相似程度越高,样本质量越高
    • 但大样本不等于总体:理论上再大的局部抽样也不如随机抽样有代表性

样本评价

  • 样本容量、样本质量是衡量抽样样本的两个最重要因素
    • 样本容量:抽样过程中抽取的样本数
    • 样本质量:衡量抽样样本的代表性

样本质量

样本质量:抽样样本与整体的相似性

  • $D$:数据集,包含 $r$ 个属性
  • $S$:抽样样本集
  • $J_k=J(S, D)$:Kullblack-Laible 散度,数据集 $S$、$D$ 在属性 $k$ 上偏差程度,越小偏差越小
  • $Q(S) \in [0, 1]$:抽样集 $S$ 在数据集 $D$ 中的质量,越大样本集质量越高
  • 若整体 $D$ 分布稀疏,容易得到 $S$ 在某些数据点观测值数为 0,得到 $I(S, D) \rightarrow infty$

    • 可以把该点和附近的点频率进行合并,同时调整总体频率分布
    • 过度合并会导致无法有效衡量数据集局部差异性
  • 对于连续型变量

    • 可以把变量进行适当分组:粗糙,不利于刻画数据集直接的局部差异
    • 计算数据集各个取值点的非参估计,如核估计、最近邻估计等,再在公式中用各自的非参估计代替相应频率,计算样本质量
  • 数据包含多个指标时

    • 可以用多个指标的平均样本质量衡量整体样本质量
    • 也可以根据指标重要程度,设置不同的权重

样本容量

  • 样本容量是评价样本的另一个重要维度
    • 样本量大、质量好、准确性高,但计算效率低
    • 样本质量差、准确性低、计算效率高
    • 样本质量提高不是线性的,高位样本容量上,边际效用往往较低
    • 同一样本容量的不同样本的样本质量也会有差异,即样本质量不是样本容量的单调函数,包含随机扰动

Statistical Optimal Sample Size

SOSS:统计最优样本数

  • 输入:数据集 $D$,包含 $N$ 个实例
  • 根据某种抽样方法,随机产生 $R$ 个样本容量分别为 $n_i, n_i \in [1, N]$ 的样本 $S$

    • $n_i$ 取值较小处应密度比较大,因为随着 $n_i$ 增加,样本质量趋近 1,不需要太多样本
    • 可以考虑使用指数序列产生在较大值处稀疏的序列作为 $n_i$ 序列的取值
  • 计算每个样本 $S$ 在数据集 $D$ 中的样本质量 $Q$

    • 并计算各个样本容量对应的样本质量均值 $\bar {Q_{n}}$
    • 绘制曲线 $(n, \bar {Q_{n}})$
  • 根据给定的样本质量要求,在样本容量对应样本质量的曲线上确定近似的最优样本容量

测试集、训练集

  • 测试集、训练集划分逻辑前提

    • 在样本量足够的情况下,减少部分样本量不会影响模型精度
    • 模型评价需要使用未参与建模数据验证,否则可能夸大模型效果
  • 测试集、训练集划分作用

    • 测试集直接参与建模,其包含信息体现在模型中
    • 训练集仅仅用于评价模型效果,其包含信息未被利用
    • 因此,若无评价、对比模型需求,或有其他无需划分测试集即可评价模型,则划分测试集无意义

测试集、训练集划分

Hold Out

旁置法:将样本集随机划分为训练集、测试集,只利用训练集训练 模型

  • 适合样本量较大的场合
    • 减少部分训练数据对模型精度影响小
    • 否则大量样本未参与建模,影响模型精度
  • 常用划分比例
    • 8:2
    • 7:3
  • 旁置法建立模型可直接作为最终输出模型
    • 旁置法一般只建立一个模型
    • 且使用旁置法场合,模型应该和全量数据训练模型效果差别不大

N-fold Cross Validation

N 折交叉验证:将数据分成N份,每次将其中一份作为测试样本集, 其余N-1份作为训练样本集

  • N折交叉验证可以视为旁置法、留一法的折中

    • 克服了旁置法中测试样本选取随机性的问题:每个样本都 能作为测试样本
    • 解决了留一法计算成本高的问题:重复次数少
  • 典型的“袋外验证”

    • 袋内数据(训练样本)、袋外数据(测试样本)分开
  • N折交叉验证会训练、得到N个模型,不能直接输出

    • 最终应该输出全量数据训练的模型
    • N折建立N次模型仅是为了合理的评价模型效果,以 N 个模型的评价指标(均值)作为全量模型的评价

Leave-One-Out Cross Validation

留一法:每次选择一个样本作为测试样本集,剩余 n-1 个观测值作为训练样本集,重复 n 次计算模型误差

  • 可以看作是 N 折交叉验证的特例

数据泄露

  • 特征泄露:训练过程中使用有包含有上线之后无法获取的数据

    • 时序数据中数据穿越:使用未来数据训练模型,模型将学习不应获取的未来信息
  • 记录泄露/训练数据泄露:切分数据集时训练集包含了测试集中部分数据

    • 会导致评估指标失真

样本重抽样

Bootstrap

重抽样自举:有放回的重复抽样,以模拟多组独立样本

  • 对样本量为 $n$ 的样本集 $S$
  • 做$k$次有放回的重复抽样
    • 每轮次抽取 $n$ 个样本
    • 抽取得到样本仍然放回样本集中
  • 得到 $k$ 个样本容量仍然为 $n$ 的随机样本 $S_i,(i=1,2,…,k)$

过采样

  • over-sampling:过采样,小类数据样本增加样本数量
  • synthetic minority over-sampling technique:过采样算法,构造不同于已有样本小类样本
    • 基于距离度量选择小类别下相似样本
    • 选择其中一个样本、随机选择一定数据量邻居样本
    • 对选择样本某属性增加噪声,构造新数据

SMOTE

Borderline-SMOTE

欠采样

  • under-sampling:欠采样,大类数据样本减少样本数量

特征编码

数值化:分类->数值

Ordinal Encoding

序号编码:使用一位序号编码类别

  • 一般用于处理类别间具有大小关系的数据
    • 编码后依然保留了大小关系

One-hot Encoding

独热编码:采用N位状态位对N个可能取值进行编码

  • 一般用于处理类别间不具有大小关系的特征

  • 独热编码后特征表达能力变差,特征的预测能力被人为拆分为多份

    • 通常只有部分维度是对分类、预测有帮助,需要借助特征选择降低维度
  • 在经典统计中,为避免完全多重共线性,状态位/哑变量会比取值数量少 1

优点

  • 能处理非数值属性
  • 一定程度上扩充了特征
  • 编码后向量时稀疏向量:可以使用向量的稀疏存储节省空间
  • 能够处理缺失值:高维映射方法中增加维度表示缺失

缺点

  • k-NN 算法:高维空间两点间距离难以有效衡量

  • 逻辑回归模型:参数数量随维度增加而增大,增加模型复杂度,容易出现过拟合

  • 决策树模型

    • 产生样本切分不平衡问题,切分增益非常小
      • 每个特征只有少量样本是 1,大量样本是 0
      • 较小的拆分样本集占总体比例太小,增益乘以所占比例之后几乎可以忽略
      • 较大拆分样本集的几乎就是原始样本集,增益几乎为 0
    • 影响决策树的学习
      • 决策树依赖数据统计信息,独热编码将数据切分到零散小空间上,统计信息不准确、学习效果差
      • 独热编码后特征表达能力边人为拆分,与其他特征竞争最优划分点失败,最终特征重要性会比实际值低

Binary Encoding

二进制编码:先用序号编码给每个类别赋予类别 ID,然后将类别 ID 对应二进制编码作为结果

  • 本质上利用二进制类别 ID 进行哈希映射,得到 0/1 特征向量
  • 特征维度小于独热编码,更节省存储空间

Weight of Evidence Encoding

WOE 编码:以分类变量各取值的 WOE 值作为编码值

  • $\%B_i, \%G_i$:分类变量取第 $i$ 值时,预测变量为 B 类、G 类占所有 B 类、G 类比例
  • $#B_i, #B_T$:分类变量取第 $i$ 值时,预测变量为 B 类占所有 B 类样本比例
  • $#G_i, #G_T$:分类变量取第 $i$ 值时,预测变量为 G 类占所有 G 类样本比例
  • WOE 编码是有监督的编码方式,可以衡量分类变量各取值中

    • B 类占所有 B 类样本比例、G 类占所有 G 类样本比例的差异
    • B 类、G 类比例,与所有样本中 B 类、G 类比例的差异
  • WOE 编码值能体现分类变量取值的预测能力,变量各取值 WOE 值方差越大,变量预测能力越强

    • WOE 越大,表明该取值对应的取 B 类可能性越大
    • WOE 越小,表明该取值对应的取 G 类可能性越大
    • WOE 接近 0,表明该取值预测能力弱,对应取 B 类、G 类可能性相近

优势

  • 相较于 one-hot 编码

    • 特征数量不会增加,同时避免特征过于稀疏、维度灾难
    • 避免特征筛选过程中,一部分特征取值被筛选,一部分被遗弃,造成特征不完整
    • 将特征规范到同一尺度的数值变量,同时也便于分析特征间相关性
  • LR 模型中,WOE 编码线性化赋予模型良好的解释性

    • WOE 编码本身即可反应特征各取值贡献
    • 可以用于给评分卡模型中各分箱评分

分类化/离散化:数值->分类

  • 分类型变量本质上无法建模,因为取值从含义上无法进行数值计算
  • 将数值型映射为分类型,往往只是中间步骤,最终会将分类型取值映射回数值型
  • 若分箱数量为 2,也被成为是二元化/布尔化

离散化综述

  • 模型使用离散特征、连续特征,是“海量离散特征+简单模型”、“少量连续特征+复杂模型”的权衡

    • 海量离散特征+简单模型:难点在于特征工程,成功经验可以推广,可以多人并行研究
    • 少量连续特征+复杂模型:难点在于模型调优,不需要复杂的特征工程
  • 一般的,连续特征对预测结果影响不会突变,合理的离散化不应造成大量信息丢失

    • 且若特征存在突变,模型将难以拟合(线性模型尤其)
    • 反而更应该离散化为多个分类特征,方便引入非线性
  • 事实上,根据Cover定理,离散化增加特征维度类似于投影至高维,更可能得到较优模型(也更容易过拟合)

    • 极限角度,对所有特征、取值均离散化,则可以得到完全可分模型(除特征完全一样分类不同)

描述角度

discretization_arch

  • supervised vs. unsupervised:是否使用分类信息指导离散化过程

    • 无监督
      • 如:等距、等频划分
      • 无法较好的处理异常值、不均匀分布
    • 有监督
      • 利用分类信息寻找合适切分点、间隔
      • 根据使用分类信息的方式有许多种
  • dynamic vs. static:离散化、分类是否同时进行

  • global vs. local:在特征空间的局部还是全局进行离散化

  • spliting vs. merging/top-down vs. bottom-up:自顶向下划分还是自底向上合并

  • direct vs. incremental:直接根据超参数确定分箱数量还是逐步改善直到中止准则

discretization_arch

典型过程

  • sort:排序
  • evaluate:评估分割点
  • split or merge:划分、合并
  • stop:停止离散化

discretization_steps

评价

  • Simplicity:可用切分点数量衡量简单性
  • Consistency:可以通过最小不一致数量衡量一致性
    • 不一致:样本具有相同的特征取值,但分类不同
    • 分箱最小不一致数量则为,箱内样本数量减最大类别数量
  • Accuracy:可通过分类器进行交叉验证的准确率衡量

优势

  • 方便工业应用、实现

    • 离散特征的增加、减少容易,方便模型迭代
    • 特征离散化处理缺失值、异常值更方便,可直接将其映射为某取值
    • 数值化后可指定取值类型,如:one-hot编码为为稀疏向量
      • 內积速度快
      • 存储方便
      • 容易扩展
  • 方便引入历史经验

    • 可以自由调整离散化结果,结合机器学习和历史经验得到最终的离散化结果
  • 模型更稳健

    • 模型不再拟合特征具体值,而是拟合某个概念,能够对抗数据扰动,更稳健
    • 对异常数据鲁棒性更好,降低模型过拟合风险
    • 某些场合需要拟合参数值更少,降低模型复杂度
  • (引入)非线性提升模型表达能力

    • 利用经验、其他信息将数值特征分段,相当于引入非线性,提升线性模型表达能力
    • 方便引入交叉特征,提升模型表达能力

适合场景

  • 离散化特征更适合 LR 等线性模型

    • 如下离散化优势:方便引入非线性等
    • 模型中所有特征都会被考虑,考虑细节、个体(包括 $L_1$ 范数也是被考虑后剔除)
  • GBDT 等树、抽样模型则不适合

    • 特征离散化后,由于抽样误差的存在,可能存在某些离散特征对样本预测能力非常强,非线性模型容易给这些特征更大权重,造成过拟合
      • 如:刚好抽取的 1000 个样本中某离散特征取值为 1 者全为正样本
    • 树模型每次使用一个特征划分节点,特征数量较多不利于模型训练
      • 若单个离散化特征预测能力不强,由于树深度限制,只有少量特征被作为划分依据,模型可能不收敛、表达能力更差
      • 若单个离散化特征预测能力强,连续特征也应该也有较好效果

无监督

  • 无监督分箱仅仅考虑特征自身数据结构,没有考虑特征与目标之间的关系

等频/等距/经验分箱

  • 分箱逻辑

    • 等频分箱:排序后按数量等分
      • 避免离散化后特征仍然为长尾分布、大量特征集中在少量组内
      • 对数据区分能力弱
    • 等距分箱:取值范围等分
    • 经验分箱
  • 分箱数量、边界超参需要人工指定

    • 根据业务领域经验指定
    • 根据模型指定:根据具体任务训练分箱之后的数据集,通过超参数搜索确定最优分桶数量、边界
  • 分箱经验、准则

    • 若组距过大,组内属性取值差距过大
      • 逻辑上分类不能够代表组内全部样本,组内取值影响可能完全不同
    • 若组距过小,组内样本过少
      • 随机性太强,不具备统计意义上说服力
      • 特征影响跳变过多

聚类分箱

  • K-Means 聚类
  • 层次聚类
  • 聚类过程中需要保证分箱有序

有监督

Binning:1R 分箱

  • 分箱逻辑、步骤
    • 将样本排序,从当前位置开始
      • 初始化:以允许的最少样本作为一箱,将箱内最多类别作为箱标签
      • 扩展:若下个样本类别与箱标签相同,则划至箱内
    • 重复以上,得到多个分箱
    • 将相邻具有相同标签的箱合并,得到最终分箱结果

Splitting

discretization_split

  • 基于信息熵的 split,具体划分依据如下
    • ID3:信息增益
    • C4.5:信息增益比
    • D2
    • Minimum Description Length Principle:描述长度

Merge分箱

discretization_merge

  • 基于依赖相关的 merge,具体划分依据如下
    • Chimerge:使用卡方值衡量两个相邻区间是否具有类似分布,若具有类似分布则将其合并
具体算法
  • 输入:目标分箱数量 $N$
  • 初始化
    • 将变量升序排列
    • 为减少计算量,若初始分箱数量大于阈值 $N_{max}$,则利用等频分箱进行粗分箱
    • 缺失值单独作为一个分箱
  • 合并区间
    • 计算每对相邻区间的卡方值
    • 将卡方值最小区间合并
    • 重复以上直至分箱数量不大于 $N$
  • 分箱后处理
    • 合并纯度为 1(只含有某类样本)的分箱
    • 删除某类样本占比超过 95% 的分箱
    • 若缺失值分箱各类样本占比同非缺失值分箱,则合并

评分卡模型

模型

  • 模型是策略的工具,策略包含模型,是模型的延伸

    • 相较于专家规则,机器学习模型
      • 允许加入更多特征维度,描述更加全面
      • 上限更高、下限更低
      • 涉及更多维度特征时,维护更方便
    • 机器学习模型和专家规则并非相互替代,更多的是串联
  • 业务问题转换为带解决数学问题

    • 尽量将业务问题转换为更容易解决分类问题而不是回归问题
    • 数学问题应尽量贴近业务:评估指标好不等于业务价值高
      • 远离业务问题的训练出模型,其线下评估效果好也不意味着上线效果好,如:针对客户而不是订单评价
      • 影响客户体验,如:客户等待时间预估偏低而不是偏高
  • 样本构造

    • 标签定义
      • 尽量为客观事实(是否、数量),而非主观判断(等级)
      • 样本粒度贴合实际、业务(订单粒度、客户粒度)
    • 样本数量
      • 二分类场景:正例样本大于 2000,占比超过 1%
    • 采样
      • 尽量不进行人工采样,保持训练数据正、负例比例和真实情况对齐

传统评分卡

评分卡 复杂学习
特征筛选 需筛选强特征,依赖业务经验 支持弱特征入模
特征处理 WOE 分箱,稳定性好
非线性 WOE 分箱提供非线性,解释性好 非线性充分挖掘数据信息,解释性差
复杂度 模型简单,泛化性好,样本需求小 模型复杂,表达能力强,样本少时容易过拟合
调参 超参少 调参难度大
模型提升方向 分(样本)群建模 Stacking 结合评分卡
  • 信用评分卡模型:利用模型将账户的属性特征按取值分组、并赋予一定分数,对账户进行信用评分

    • 最常见的金融风控手段之一,用于决定是否给予授信以及授信的额度和利率
    • 常用逻辑回归作为模型
    • 应用形式为查分组得分表、得分加和
      • 变量总是被分组,同组内得分相同
      • 用户属性变化不足以跨越箱边界,则得分不改变
  • 评分卡更关注得分相对值,即得分变动情况,评分绝对值含义意义不大

    • 常用 LRsigmoid 函数内线性函数结果作为初始得分
      • 根据 LR 意义,此时得分可以映射为账户的违约概率
    • 为美观,可能会对得分做线性变换
      • 常对各特征得分做放缩、对账户得分和做平移,此时放缩比例除以 $ln2$ 即为 PDO (对特征得分同时做等比例放缩、平移可行但蠢)
      • 线性变换后得分绝对值无意义,特征重要性可用特征各分组得分差距衡量
  • 评分卡在不同业务阶段体现的方式、功能不一样,按照借贷用户借贷时间可以分为

    • 申请评分卡 Application Score Card:贷前申请评分卡
    • 行为评分卡 Behavior Score Card:贷中行为评分卡
    • 催收评分卡 Collection Score Card:贷后催收评分卡

Stacking 评分卡

  • 考虑将评分卡、机器学习模型结合,使用机器学习模型构建特征,在此基础之上建立评分卡模型
  • Stacking 思想下的模型架构

    • 原始数据域
    • 数据挖掘、特征工程
    • 数据域特征子模型
    • 评分卡模型
  • 架构优势

    • 可解释性:保留在数据域粒度上的可解释性
    • 信息提取:子模型提取弱特征信息,降低特征工程门槛
    • 维度多样性:特征子模型机制,降低特征筛选必要性,保证各数据域都有特征入模
    • 模块化:具有良好扩展性,支持子模型替换、删除
    • 并行化:各数据域特征子模型专业、独立负责,提高效率
  • 架构劣势

    • 牺牲部分可解释性:若策略、模型使用相同变量,策略阈值调整对模型影响难以估计
      • 控制入模变量数目,便于快速定位
      • 利用 SHAPLIME 等工具解释模型
    • 增加上线、维护成本:需要上线多个模型,且对多个架构多个层次都进行监控
    • 协同建模增加对接成本
    • 分数据域特征子模型建模,容易造成数据孤岛,无法捕捉不同数据域间的数据联系
      • 跨数据域构造特征,构建跨数据域子模型

B 卡 - Behavior Scoring

贷中风控:根据借款人放贷后行为表现,预测未来逾期风险

  • B 卡用于动态监控放款后风险变化

    • 贷前阶段对借款人履约行为掌握少,且为静态数据
    • 一般无需实时,离线T+1计算即可
  • B 卡适合的信贷场景

    • 还款周期长
      • 长周期场景用户风险变化可能性大,与 A 卡形成区分
      • 引入贷中客户信息、还款履约行为,更准确识别客户逾期风险
    • 循环授信
      • 贷前阶段,无法很好识别客户风险,设置初始额度
      • 贷中与客户更多交互之后,可根据获取的贷中行为信息进行提额、降额操作
  • B 卡区分度一般很高

    • 除贷前数据之外,还可以使用账户的贷中表现数据
    • 特别的,不考虑排序性的情况下,使用是否逾期作为划分依据也能得到较高的 TPR-FPR,给出 KS 的下限
  • B 卡建模主要基于老客

    • 老客有足够长的申贷、还款记录
    • 新、老客定义口径
      • 新客:无历史结清订单
      • 老客:至少有1笔结清订单

C 卡 - Collection Scoring

贷后催收评分卡:当前状态为逾期情况下,预测未来出催可能性

  • 现阶段业界对 C 卡不够重视

    • 贷前风控最重要,优秀的贷前带来更容易的贷中、贷后
    • 催收效果和人员更相关,而逾期发生之后往往会委外
    • 随信贷行业的发展,贷后催收会趋向于精细化、专业化的发展,模型+策略的优化愈发重要
  • 模型分群

    • 新老入催用户
      • 首次入催
      • 再次入催
    • MOB 信息(数据厚薄)
      • 还款月份数
      • 催记月份数
    • 订单详情
      • 利率
      • 期限
      • 金额

样本选择

  • 建模样本窗口选择

    • 特征覆盖度:保证数据厚薄程度相同
    • 催收动作变化:出催没有大幅度变动
    • 客群变化:入催没有大幅变动
  • 同用户订单合案

    • 不合案:同用户多笔订单视为不同样本
      • 表现期内入催当期结清视为出催
    • 合案:同用户相近观察点入催订单合并
      • 表现期内入催当期所有账单还清视为出催
      • 对发生过 M2+ 逾期者,可将只要出催一期即视为出催

C 卡模型

  • 根据模型作用时间段分类
  • M1 全量模型:预测 M1 阶段(逾期 30 天内)还款概率

    • 样本:所有入催样本整体
      • 若缓催期内催出用户较多,则模型主要学习了缓催样本信息,约等于缓催响应模型,对非缓催样本效果较差
    • 时间窗口
      • 观察点:还款日
      • 表现期:M1 阶段
  • 缓催响应模型:预测适合缓催人群

    • 样本:需要积累足够的缓催响应样本
      • 若有足够缓催响应样本,可以和M1全量模型同时构建
      • 否则,在 M1 全量模型得分高(出催概率高)人群上进行 AB Test,积累缓催响应样本
    • 时间窗口
      • 观察点:还款日
      • 表现期:缓催响应日(2-3 天)
  • 贷后 N 天流转模型:预测贷后N天后的还款概率

    • 样本:缓催内未出催样本
      • 去除缓催样本影响,更多学习缓催期外出催样本信息
      • 优先对催出概率高的人群进行催收,提高出催概率
    • 时间窗口
      • 观察点:还款日(逾期)后 N
      • 表现期:至下个流转模型观察点、逾期阶段结束时间点
  • M2+ 模型:预测 M2+ 阶段的还款概率(类似贷后流转模型)

    • 样本:M1 阶段未出催样本
    • 时间窗口
      • 观察点:M2 阶段起始
      • 表现期:至下个流转模型观察点、逾期阶段结束时间点

模型应用方法

  • 缓催响应人群确定

    • 交叉 M1 模型、缓催响应模型,根据模型交叉结果设置阈值
    • 根据阈值筛选缓催响应人群
    • 限定缓催期(2-3 天),将缓催响应样本分为人工催收、缓催两组,观察两组在缓催期限内出催率变化
      • 若出催率相同,则认为缓催响应人群分析方法可行,对缓催响应人群可采取缓催策略
      • 若出催率相差较大,则调整缓催响应人群分析方法
    • 缓催模型响应时间(缓催期)可根据响应时间段内的出催率变化设置
  • 模型搭建策略

    • M1 阶段出催概率较大,在M1阶段会设计多个细分模型
      • 至少:M1 阶段全量模型
      • 缓催样本足够
        • 缓催响应模型
        • 贷后 N 天流转模型
      • 精细化管理:多个不同时间窗口的贷后流转模型
    • M2+ 阶段根据样本量、精细化程度设置适量模型

开发流程标准化

  • 风控模型开发流程标准化意义
    • 提高建模效率:可批量快速生产模型,提高效率
    • 帮助理解指标逻辑、业务含义,利于调试优化
    • 流程规范约束
      • 统一建模流程,减少出错概率、便于问题回溯
      • 统一命名方式,便于汇总文档

数据预处理

特征编码

  • 特征离散化

  • WOE 编码特征

    • WOE 曲线应符合业务逻辑(一般单调),并且经过跨时间 窗口验证,否则应该调整
    • LR 模型中特征权重应该全为正值,否则
      • 同数据 WOE 值体现的逻辑相违背
      • 负值权重特征存在较严重共线性
  • one-hot 编码特征

    • 同特征下个分箱单独作为独立变量取值
      • 权重灵活性更大,模型效果可能较好
      • 变量数量多,需要样本数量大,模型效果可能较差(随机解法)
    • 各特征分箱之间无联系,难以通过模型剔除某个变量

样本赋权

  • 样本赋权:充分利用所有样本的信息,避免样本有偏
    • 按样本距今时间赋权,近期样本高权重
    • 按业务特性赋权,不同额度、利率、期限不同权重
    • 按账户类型赋权

拒绝推断

  • Reject Inference 拒绝推断:避免样本偏差导致模型估计过于乐观

Exploratory Data Analysis

  • 风控领域样本较少,一般按月粒度观察,即将样本按月分组为 vintage 进行分析,探索、评估数据

    • 稳定性
    • 信息量
    • 信息重复/相关性
  • 实操中可逐阶段设置多组阈值,分布进行变量探索、筛选

    • 多组阈值逐步剔除能尽可能保留高信息量特征
    • 避免相关性、RF 特征重要度等 非单变量指标 剔除过多特征

模型评估

  • 有效性/区分度

    • GINI 指数
    • KS
    • 坏样本率:组内、累计
    • 提升度 = 召回样本坏样本率 / 全部样本坏样本率
    • odds = 坏样本率 / 好样本率
  • 排序性

    • AUC 值/ROC 曲线
  • 稳定性

    • PSI
    • Vintage 内坏占比、Lift 值、odds 等指标稳定性
  • 模型得分展示表

    • 箱内样本数
    • 好、坏样本数
    • 箱内坏样本、比例
    • 累计好、坏样本
    • 累计好、坏样本比例:TPRFPRTPR-FPR
    • 累计通过率、坏样本比例

模型应用

Calibration 模型校准

  • 一致性校准:将模型预测概率校准到真实概率
  • 尺度变换:将风险概率转换为整数分数

导出得分

  • 原始得分

    • one-hot 编码:LR 模型系数
    • WOE 编码:LR 模型系数(权重)、WOE 值之积
  • 常对各特征得分做放缩、对账户得分和做平移

    • PDO:违约翻倍得分
      • 用于缩放原始得分
      • 得分按 $\frac {PDO} {ln2}$ 缩放后,得分减少 $PDO$ 分,用户违约 odds 翻倍,缺省即 $ln2$
    • 账户得分总和平移则仅仅是为了美观
    • 对特征得分同时做等比例放缩、平移可行但蠢

Word2Vec

Word2Vec

Word2Vec:word embeding的一种,使用层次化softmax、负采样 训练词向量

Hierarchical Softmax

层次Softmax

word2vec_hierarchical_softmax

  • 对所有词向量求和取平均作为输入层到隐层的映射 (特指CBOW模型)

  • 使用霍夫曼树代替从隐藏层到输出softmax层的映射

思想

  • softmax需要对$m$个类别求出softmax概率,参数多、计算复杂

  • 考虑将$m$个类别划分为多个二分类sigmoid,即

    • 将总类别划分为两组
    • 依次判断数据点属于哪组
    • 直至数据点所属组仅包含一个类别
  • 则多个sigmoid划分构成一棵二叉树,树叶子节点即为$m$ 类别

    • 二叉树结构可以由多种,最优二叉树应该使得对整个 数据集而言,sigmoid判断次数最少
    • 即应该使用按照数据点频数构建的霍夫曼树
    • 霍夫曼树

模型

  • 输入$x^T$所属类别霍夫曼编码为$d={d_1,\cdots,d_M}$, 则应最大化如下似然函数

    • $w_j, b_j$:节点$j$对应sigmoid参数
    • $P(d_i)$:以sigmoid激活值作为正例概率 (也可以其作为负例概率,但似然函数需更改)
  • 则对数似然函数为

梯度计算

  • 则参数$w_{j_M}$梯度如下

  • 词向量$x$梯度如下

CBOW流程

  • 特征词周围上下文词均使用梯度更新,更新输入
  • 基于预料训练样本建立霍夫曼树
  • 随机初始化模型参数$w$、词向量$w$
  • 对训练集中每个样本 $(context(x), x)$($2C$个上下文)如下 计算,直至收敛

    • 置:$e=0, xw=\frac 1 {2C} \sum{c=1}^{2C} x_c$

    • 对$x$的霍夫曼编码 $d={d_1, \cdots, d_M}$ 中 $d_i$ 计算

    • 更新 $2C$ 上下文词对应词向量

Skip-Gram流程

  • 考虑上下文是相互的,则 $P(x{context}|x)$ 最大化时,$P(x|x{context})$ 也最大
  • 为在迭代窗口(样本)内更新仅可能多词向量,应该最大化 $P(x|x_{context})$,使用梯度更新上下文 $2C$ 个词向量,更新输出(条件概率中更新条件)
  • 基于预料训练样本建立霍夫曼树
  • 随机初始化模型参数 $w$、词向量 $w$
  • 对训练集中每个样本 $(x, context(x))$、每个样本中上下文词向量 $x_c$($2C$ 个上下文),训练直至收敛

    • 置:$e=0$

    • 对 $x$ 的霍夫曼编码 $d={d_1, \cdots, d_M}$ 中 $d_i$ 计算

    • 更新 $2C$ 上下文词对应词向量

Negtive Sampling

负采样

思想

  • 通过负采样得到$neg$个负例
  • 对正例、负采样负例建立二元逻辑回归

模型、梯度

  • 对类别为$j$正例、负采样负例应有如下似然函数、对数似然 函数

    • $y_i$:样本点标签,$y_0$为正例、其余负例
  • 同普通LR二分类,得到参数、词向量梯度

负采样方法

  • 每个词对应采样概率为词频取$3/4$次幂后加权

CBOW流程

  • 随机初始化所有模型参数、词向量
  • 对每个训练样本$(context(x_0), x_0)$负采样$neg$个中心词 $x_i$,考虑$x_0$为类别$j$
  • 在以上训练集$context(x0), x_0, x_1, \cdots, x{neg}$中 训练直至收敛

    • 置:$e=0, xw=\frac 1 {2C} \sum{c=1}^{2C} x_c$

    • 对样本$x0, x_1, \cdots, x{neg}$,计算

    • 更新$2C$上下文词对应词向量

Skip-gram中心词

  • 类似Hierarchical Softmax思想,更新输出$2C$个词向量
  • 随机初始化所有模型参数、词向量
  • 对每个训练样本$(context(x_0), x_0)$负采样$neg$个中心词 $x_i$,考虑$x_0$为类别$j$
  • 以上训练集$context(x0), x_0, x_1, \cdots, x{neg}$中, 对每个上下文词向量$x_c$如下训练直至收敛

    • 置:$e=0$

    • 更新$2C$上下文词对应词向量