风险控制

欺诈风险

  • 欺诈:以故意欺瞒事实而诱使对方发生错误认识的故意行为,通常目的是使欺诈者获利
    • 欺诈的行为要素
      • 使人发生错误认识为目的
      • 故意行为
    • 欺诈可以分为
      • 冒用:冒用他人身份,通过生物信息技术等容易发现
      • 伪装:伪造部分信息,相对而言更难识别
    • 金融领域“资金就是生产资料”使得欺诈者的非法获利更容易

欺诈事件

  • 白户:账户信息缺失,没有足够数据对借款人进行风险评估
    • 内部白户:新注册、无申贷历史记录
    • 外部白户:人行征信、三方征信无覆盖
  • 黑户:账户存在逾期、失信、欺诈记录
    • 内部黑户:历史订单逾期
    • 外部黑户:人行征信、三方征信黑
    • 论坛、公开渠道监控
  • 恶意欺诈:账户通过伪造资料、蓄意骗贷
    • 伪造账单流水记录骗取更高额度
    • 恶意欺诈账户可能涉及不良嗜好,如黄赌毒等
  • 身份冒用:伪冒他人身份进行欺诈骗贷
    • 熟人冒用
    • 他人盗用
    • 一般可通过信审、人脸识别、活体验证核验借款人身份
  • 以贷养贷
    • 放大共贷风险杠杆
    • 可通过三方征信机构的多头借贷产品识别
  • 中介欺诈:黑中介哄骗或招揽客户实施骗贷
    • 黑中介利用风控漏洞大规模攻击,造成大量资损
  • 传销:有组织的开展收费并发展多级下线,存在集中骗贷风险
    • 存在老客拉新,从关系网络上具有明显星状结构

欺诈者身份

  • 第一方欺诈:欺诈者用真实身份进行欺诈

    • 严格来说不是欺诈,没有在身份信息上误导平台
    • 应对措施
      • 黑名单
  • 第二方欺诈:企业、渠道内员工进行内部欺诈、内外勾结

    • 即巴塞尔协议操作风险中的内部欺诈
    • 应对措施
      • 内控:权限获取合理、流程上风险分散、操做可追溯
  • 第三方欺诈:非欺诈者自身、企业内部的第三方欺诈

    • 名义借贷者身份信息通过黑色产业链购买、养号,作为黑产军团的一个链条
    • 申请欺诈
      • 账户盗用
      • 资料造假
      • 恶意违约
    • 交易欺诈
      • 账户冒险
      • 养卡
      • 套现
    • 应对措施
      • 对抗性强、低侵入、性价比各种能力和技术
      • 社交网络发现
      • 数据交叉对比
      • 模型客户用户画像

获取非法收益的时间

  • First Payment Default 首轮欺诈

    • 首期失联
  • Bust-out 余额欺诈

    • 短时间将授信刷高再获利离场

收益来源环节

  • 单个客户利润 = 贷款收益 - 资金成本 - 信用成本 - 获客成本
    • 获客成本 - 税收成本
  • 骗贷:信用成本中的风险成本
  • 羊毛:获客成本中的补贴
  • 刷量:获客成本中的广告费
  • 虚假短信:运营费用中的短信流量费

得利方、损失方

  • C骗C:在互金领域不多
    • 即使是P2P,也会有平台兜底
  • B骗C
  • C骗B
  • B骗B

反欺诈

  • 防范欺诈的重要障碍是欺诈难以标注,是通过贷后表现推断贷前 意图

    • 一般只有真正联系到本人或失联,很难有足够证据证明是欺诈导致的逾期,而不是信用导致逾期
    • 欺诈导致逾期往往有以下特征
      • 首逾:最常作为欺诈指标
        • 对第一方、第三方欺诈,往往会发生首逾
        • 对第二方欺诈,考虑到内部人员的考核、规避等 原因,有可能会正常还款1到2期,此类欺诈较难认定
      • 催收追回率更高
  • 反欺诈调研步骤

    • 风险事件发现:具有敏锐的风险嗅觉,发现可疑事件
    • 欺诈场景还原:广泛收集各渠道信息还原欺诈场景,调研分析背后可能原因
    • 风险规则提炼:从欺诈场景中提炼相应专家规则,拦截欺诈
    • 技术算法支持:搜集相应数据,根据数据类型和场景特点寻找合适算法识别欺诈
  • 反欺诈除了常规的策略部署外,还需要考虑人性:延迟模型和规则的效用

    • 抓大放小:允许小资损,随机抽取小比例的欺诈者通过
      • 隐藏防控点,用于积累黑名单
      • 迷惑欺诈团伙
    • 虚假额度:设置虚假授信额度,但借口其他理由不放款

调研欺诈风险渠道

  • 实时大盘监控:适合识别黑中介风险、传销风险等团伙欺诈
    • 设备聚集性风险 LBSWIFI
    • 地域欺诈风险,如朋克村
  • 信审催收反馈
    • 通过电话外呼、核验用户身份、咨询借款动机,根据用户反应发现身份伪冒
  • 论坛舆情监控
    • 对相关论坛、讨论组等检测仪监控,发现市场动向
    • 理解欺诈人群的心理特征、社会身份
  • 黑产卧底调研
    • 线上加入相关社区,站在欺诈账户立场上,找寻风控系统弱点
    • 线下去欺诈案件多发地,实地调研、学习黑产手法

反欺诈专家规则

  • 针对网贷黑中介识别的风险规则

    • 中介通讯录长常常会存储客户号码,并加以备注
    • 因为需要联系客户,运营商数据中往往会留下痕迹
    • 中介网贷申请手法更熟练,在申请页面停留时间短
    • 使用网络可能包含“网贷”等敏感信息
    • 人脸活体验证时存在照片翻拍、视频通话
  • 对反欺诈规则同样可按照一般规则进行评价

    • 规则欺诈命中次数、命中率
      • 规则欺诈命中次数 = 命中触发报警之后被认定为欺诈次数
      • 欺诈命中率 = 规则欺诈命中次数 / 规则报警次数
    • 综合欺诈命中次数
      • 综合欺诈次数 = 规则欺诈命中次数 + 逾期调查认定欺诈数
      • 综合欺诈命中率
    • 考虑到欺诈逾期特征,可以把首逾、催收回账户重点调查
  • 专家规则有高准确率的优点,但是覆盖的人群有限,性价比低,过多会导致规则集冗长,不利于维护

反欺诈算法

  • 应用方向

    • 辅助调查人员从单个案件的调查上升到对团体的调查,提高人工审核效率
    • 通过用户之间的关联关系,给调查人员提供更多分析线索
  • 算法研究方向

    • 基于社交网络的模型
      • 基于通讯录、运营商数据,采用基于图的社区发现算法
    • 基于无监督聚类的模型
    • 知识图谱
    • Embedding 特征构建
      • 基于埋点行为数据,生成 Embedding 特征
    • 文本分类
      • 基于论坛文本、通讯录名称、WIFI 名称分类

First Payment Deliquency模型

  • FPD 模型:以首逾作为目标变量建立模型

    • 假设:欺诈者动机是骗钱,那么第一期就会逾期
    • 入模变量一般是负面特征
      • 安装负面 App 数量
      • 历史逾期次数
  • 基于欺诈的还款表现作为理论支撑,但是也存在一定缺陷

    • 逾期标签存在滞后性,首逾标签存在至少一个月,不利于快速响应
    • 放贷样本同总体有偏,在其上训练模型存在偏差,会低估风险

信用风险

风控规则

风控规则

  • 规则的类型
    • 条件判断:决策路径独立
    • 决策表:决策路径有交集、规律
    • 决策树:决策路径不规律、可能重复检查同一数据
  • 规则引擎:接受数据输入,解释业务规则,根据业务规则、使用 预定义语义做出业务决策

制定原则

  • 监管、公司政策类
    • 年龄准入
    • 行业准入
      • 有金融属性行业
      • 政策敏感娱乐行业
    • 地域准入
    • 场景准入
  • 风控层面
    • 黑名单类
    • 多头类:申请次数
    • 共债类:申请量
    • 反欺诈类
    • 评分拒绝类

规则发现

规则评分

  • 强弱规则

    • 强规则:可作为独立规则,直接指导决策
    • 弱规则:具有一定区分度,但不决定性
  • 弱规则可组合使用,通过评分方式衡量弱规则

    • 使用规则评分衡量规则影响力
    • 规则影响力则可以通过命中坏占比、odds变动衡量
    • 设置阈值,命中规则的评分之和超过阈值才触发报警

笛卡尔积法

  • 步骤
    • 获取变量:定义好坏,关联特征变量
    • 变量筛选:通过IV值等指标快速筛选变量
    • 指标统计:分组统计申请量、放款量、坏账量等指标
    • 透视呈现:分申请率、放款率、坏账率等指标制作交互,如列联表等
    • 规则提取:结合各维度选择满足要求的组别,提取规则逻辑
    • 规则评估:评估跨期稳定性
    • 策略上线

决策树法

  • 决策树法优势
    • 可根据划分依据自动对人群细分
  • 决策树法缺陷
    • 难以调整决策树划分结果
    • 划分结果可能缺乏业务意义
    • 可能出现过拟合现象

规则阈值设置

  • 阈值设置指标

    • Lift
    • 收益/风险比
  • 阈值设置依据

    • 对分类取值,根据 Lift 值、收益/风险比 确定是否作为规则
    • 对有序、数值取值,结合不同阈值点计算 Lift 值、收益/风险比,绘制曲线
      • 曲线平缓变化,则阈值切分收益变化稳定,阈值调整空间比较大
      • 曲线存在明显陡、缓变化,则阈值切分收益在拐点处收益较大,阈值调整空间有限

规则评价

  • 案件调查
    • 用信前报警调查
    • 逾期后调查
    • 根据不同目标,可以对不同的案件区分重点调查

线下 / 离线(标签已知)效果评估

  • 自身效果评估
    • 混淆矩阵
      • TPR/FPR
      • 准确率/误拒率
    • 提升度
      • 拒绝样本中坏样本Lift提升度
      • 通过样本中好样本Lift提升度
    • 通过率、拒绝率
    • 加权收益:好数量 好收益 + 坏数量 坏收益
  • 对比/增量效果评估:和其他数据源比较
    • 有效差异率:查得命中 / 其他通过且为坏样本
    • 无效差异率:查得命中 / 其他拒绝
  • 类似名单类数据评估

线上 / 在线(标签未知)效果评估

  • 规则报警次数、报警率

    • 规则(触发)报警次数:命中规则后账户被拒绝次数
      • 对强规则,即为规则命中次数
      • 对弱规则,小于规则命中次数
    • 规则报警率 = 规则报警次数 / 规则命中次数
    • 规则报警率低、趋势走低表明规则需修正
  • 规则调查次数、调查率

    • 规则调查次数 = 对案件调查分析时调查其次数 (短路调查)
    • 规则调查率 = 规则调查次数 / 规则报警次数
    • 调查率低则因考虑其他规则替代该规则,或or合并规则
    • 规则可以为调查提供提示,而过多不能给调查提供提示的 规则反而浪费时间
  • 规则命中次数、命中率

    • 规则命中次数 = 命中触发报警之后被认定为坏样本数
    • 规则命中率 = 规则命中次数 / 规则报警次数
  • 综合命中次数

    • 综合命中次数 = 规则命中次数 + 逾期调查认定坏样本数
    • 综合命中率 = 综合命中次数 / 规则报警次数
  • 在线效果效果是无法在体系内自评估的,必须引入外部信息,包括:人工审核、额外数据源、扩招回机制等

规则稳定性

通过率波动应对

  • 寻找通过率变动的时点
  • 计算各维度通过率波动程度PSI
    • 定位各策略节点主次影响
    • 分析主要影响策略节点规则、阈值
  • 指导决策

逾期率波动应对

  • 定位逾期率波动客群:存量客户、新增客户
    • MOD

旁路规则

Swap Set Analysis

  • 新、旧模型可用离线指标比较优劣,但最终要在业务中比较通过率、坏账率,二者正相关,swap set 则是反应模型的通过的变化
  • Swap Set Analysis 用于分析新、旧模型更替

    • 根据订单在新、旧模型的通过情况,可以分为三类
      • Swap-in Population:旧模型拒绝但新模型接受
      • Swap-out Population:旧模型接受但新模型拒绝
      • No Change:新、旧模型同时接受、拒绝
    • swap set 角度评价 “新模型优于旧模型”
      • Swap-in Population >= Swap-out Population 且坏账率不升
      • Swap-in Population = Swap-out Population 、坏账率不变,但用户响应率提升
  • 实务中,已上线的旧模型拒绝订单无法获取表现期,只能通过拒绝推断近似得到坏账率

    • 同时间窗 A/B-Test:切分流量让旧模型只打分不拒绝
    • 跨时间窗 A/B-Test:用旧模型在灰度期坏账率替代

扩召回

扩召回:独立召回之外,利用额外模型扩召回部分样本

  • 此处召回一般指通过 成熟 的规则、模型从全体中获取部分样本

    • 召回一般为历史沉淀、专家经验规则
    • 召回的理由充足,但泛化性较差
  • 扩召回和二次排序训练用的样本是相同的,但

    • 二次排序是在召回的样本基础上再次排序
      • 目标:(全局)排序能力
      • 评价标准:AUC、头部准召
    • 扩召回一般是独立于召回建立的模型
      • 目标:学习召回样本的规律,完善召回机制、补充召回样本
        • 因此,扩招回也可以用召回样本作为正样本
        • 扩召回也可用于在线验证新、旧规则的有效性
      • 评价标准:额外召回准确率(对召回样本的学习能力)
        • 事实上,若采用召回样本作为正样本,则 AUC 为 1 的扩召回是无价值的,只是复现了召回
      • 特征:可能包含一些专供于扩召回使用的特征
      • 扩召回的正样本可能还包括人工举报、隐案等

准入规则

  • 风控准入规则应为强拒绝规则
    • 不满足任何规则均会被拒绝
    • 规则无需经过复杂的规则衍生
    • 策略理念:验证借款人依法合规未被政策限制
    • 风控流程中首道防线
      • 准入策略已经趋同
      • 但对不同信贷场景仍应采取更适应业务的准入规则

基础认证模块

  • 风控基础认证模块:验证申请人真实性
    • 身份证信息验证
    • 人脸信息验证
    • 银行卡四要素验证
    • 运营商三要素验证

按数据来源分类

  • 个人信用类
    • 个人基本信息
      • 年龄准入
      • 地区准入
      • 行业准入
    • 经济能力信息
      • 月收入
      • 流水
    • 社交信息
  • 设备信息
    • 短信
    • APP安装信息
  • 外部数据源
    • 征信报告
    • 外部黑名单
  • 行为数据
    • 活动轨迹
    • 登录、注册时间
  • 评分卡规则

黑、白名单

白名单

  • 白名单:风险相对可知可控的客户构成的内部名单

    • 业务初期:通过白名单控制入口
      • 控制放量节奏
      • 降低风险
      • 通过宽松风控规则提高审批通过率
      • 通过贷前策略规则筛选白名单,协助调整贷前策略
    • 业务中期:部分客户走特殊的贷前审批流程,满足特殊审批 要求
  • 白名单筛选方式:有部分存量数据情况下

    • 联合建模:缺乏特定业务场景预测变量,与外部机构建模 补充预测变量
    • 内部数据探索:寻找与违约表现相关性较强的特征规则
      • 类似场景、产品
      • 纯粹凭借专家经验规则
    • 引入外部数据匹配

黑名单

  • 黑名单:还款能力、还款意愿不能满足正常客户标准

    • 通常多个好客户才能覆盖坏客户的本金损失
    • 通过黑名单客户全部拒绝,但是对于导流助贷机构,业务 核心是流量和客户质量,拒绝全部黑名单客群成本巨大, 可能会随机、结合评分放过部分
  • 黑名单建立

    • 建立黑名单参考维度
      • 还款表现
      • 渠道
      • 利率
      • 失信名单
    • 黑名单主体
      • 身份证
      • 手机号
      • 邮箱
      • 银行卡
      • IP

三方黑名单

  • 自建黑名单命中率不高(二次申请概率低),且需要长期 积累

  • 不同三方黑名单往往会有其侧重点

    • 团伙欺诈名单
    • 公安、司法名单
    • 被执行人名单
  • 三方黑名单效果也有好有坏,对效果较差、但通过率影响 不大黑名单也可以考虑保留

    • 黑名单一般是查得收费,外挂较多黑名单不会提升成本
    • 黑名单可视为容错机制,黑名单不一定能所有样本上 表现优秀,保留其可防止欺诈团伙等集中攻击
  • 同样值得注意的是,黑名单的质量需要考核

    • 非公信黑名单定义各家不同
    • 名单没有明确的退出机制
    • 黑名单按查得收费,有些黑名单会掺沙子
    • 有些名单提供商同时作为信贷放贷方,有动力将优质客户 截留,将其添加进名单

风险管理

互金风控

  • 互金相对传统金融风控有更多挑战

    • 模型迭代速度要求高
      • 互金市场波动剧烈
      • 长尾劣质客群更不稳定,容易导致样本波动
    • 数据源采集种类更多
      • 弱相关数据更多,处理难度更大
      • 政策合规要求,数据采集和使用更规范
  • 风控技术无关强弱,关键只在于“是否有效”

    • 时机选择
    • 制度安排及辅助
    • 背后所驱动的支撑逻辑
  • 风控领域,大数据等技术的应用场景和方向

    • 自动化,尽量减少人工干预,减少主观臆断
    • 实现“差异化”,客制化产品设计
      • 补全客户画像
      • 挖掘客户需求
    • 精准度,需要模型驱动
      • 交易成本评估
      • 差异化定价
      • 反欺诈
    • 创新型评估
      • 底层数据共享

风控策略

  • 风控策略本质是规则集的逻辑组合

    • 在贷前审批阶段减少风险事件发生
    • 挽回风险事件发生的造成的损失
    • 筛选用户:过滤高风险用户t保留低风险用户
    • 对客群分级实行个性化审批流程,提高审批效率
  • 广义看,策略也是一种模型

    • 模型通过算法挖掘数据学习规律、构造特征;而策略则是 结合具体业务场景,依赖人工经验对客群细分,如决策树、 笛卡尔积分群
    • 模型往往经过长时间稳定性验证,只有出现明显衰减时才会 触发迭代;策略上线、下线灵活,可以根据近期样本灵活 调整
    • 模型需要在策略中应用才能发挥效果

风险控制

  • 信用风险:侧重风险管理,在风险和收益之间寻求平衡,追求 利润最大化

    • 通过金融属性数据识别客户还款能力、意愿
  • 欺诈风险:侧重严防拒绝,属于欺诈必然拒绝

    • 跟进欺诈风险事件,快速响应
  • 反欺诈和信用顺序各有优劣,但是应该都做完之后得到综合授信 决策

    • 反欺诈在后:欺诈后需要人工核验,处于成本考虑后置
    • 信用在后:希望进入模型的数据更真实,否则会欺骗模型 造成错误决策

模型风险

  • 模型:应用统计、经济、金融或数学理论、技术和假设将输入 数据处理为定量估计的量化方法、系统或途径
  • 模型风险来源

    • 模型自身错误:模型设计、开发以及IT实施时发生的错误
      • 统计理论应用错误
      • 目标变量错误
      • 样本选择错误
      • 变量挑选、衍生错误
      • 算法错误
      • 在信息系统中执行与开发不一致
    • 模型被不恰当的使用
      • 模型套用
      • 市场环境、消费者行为习惯发生重大变化
  • 美国监管部门围绕“有效挑战”指导原则,建立模型风险监管体系

    • 动力:挑战者必须在组织上相对独立于模型开发者,有正向 激励挑战
    • 胜任力:挑战者具备相关专业知识和技能
    • 影响力:挑战者必须具备权威、组织内地位,来自更管理层 的承诺和支持,保障被挑战方对其意见有足够重视

风险监管体系框架

  • 第一防线
    • 模型开发者:开发、上线、使用、监控和维护模型,配合 模型验证部门的独立验证工作
    • 管理维护者
    • 使用者
  • 第二防线
    • 模型验证部门:独立验证模型
    • 模型风险监管部门:草拟、执行模型风险管理政策
  • 第三防线
    • 内部审计:评估模型风险管理是否完整、严谨、有效
  • 外部防线:政府监管
    • 美联储
    • 美国货币监理署

风险监管具体要求

Model Inventory模型清单

  • 模型状态
  • 模型目的、设计的目的产品、预期和实际使用的场景、使用限制
  • 输入数据、组件的类型和来源
  • 输出及其预期用途
  • 模型运行状态、更新时间、政策例外
  • 开发、验证负责人
  • 已完成和计划当中的验证目的
  • 有效期

Model Development模型开发

  • 明确模型目的
    • 设计、理论、逻辑的研究支持
    • 模型组件、算法的优缺点
    • 与其他理论方法的比较
  • 评估数据质量
    • 证明数据、信息适合模型
    • 替代数据需证明、记录
    • 对必要的数据跟踪分析,尤其是外部数据、新客群、 新产品
  • 测试确保符合预期
    • 准确性
    • 鲁棒性
    • 稳定性

Model Implementatioin and Model Use

  • 模型实施的需要有严谨的校验规范,保证上线模型与开发模型 一致
    • 结果(包括中间结果)一致
    • 底层数据一致
    • 计算逻辑一致
  • 模型使用可以进一步评估模型性能
    • 模型使用者反馈模型使用情况、业务契合度
    • 业务经理评估模型背后的方法、假设
    • 其他利益不相关部门建议
  • 模型的业务决策报表应清晰易懂
    • 决策者和建模者知识背景可能不同
    • 需要包含足够的输入、输出示例,充分展示模型各个维度

Model Validation

  • 模型验证须由专业、独立的模型验证团队执行
    • 有动力
    • 有胜任力
    • 有影响力
  • 验证范围须包括模型所有组件
    • 输入
    • 处理
    • 报告
  • 验证的严格性、复杂性应与以下相适应
    • 模型使用量
    • 模型复杂性
    • 模型重要性
    • 业务规模和复杂性
模型验证分类
  • Initial Validation初始验证:首次使用前的验证

    • 根据模型的缺陷选择是否接受
    • 由于其他原因无法验证,应该记录在案,并通过其他补偿性 控制减轻模型不确定性
  • On-going Validation持续验证:模型投入使用后持续进行的 验证

    • 跟踪已知问题并识别任何新的问题
    • 确保市场、产品、风险敞口、活动、客户、业务实践不会 造成新的模型问题
  • Model Review定期复查

    • 确定模型是否正常工作且现有的验证活动是否足够
验证框架要素
  • 概念健全性评估:模型设计、构造的质量

    • 审查相关文件与实践证据,确保模型设计、建造中使用的 方法、判断、变量选择有充分信息、经过仔细考虑,且与 已发表的研究和成功行业实践一致
  • 结果分析,比较模型输出与实际结果,分析模型性能

    • 各种量化、非量化的测试分析技术都有弱点,应根据模型 选择适当、一系列结果分析
    • 量化结果有助于评估判断专家判断的质量、新旧模型性能 差距
    • 结果分析应持续进行
    • 除用保留样本(训练样本时间段内)分析模型性能外,还 需要使用训练样本时间段外样本进行back-testing
  • 敏感性分析,检查模型的稳定性、鲁棒性

Model Monitoring

  • 模型监控频率应与模型性质、新数据或建模方法的可用性,涉及 的风险程度相匹配

  • 开发阶段发现的模型局限应在持续监控中定期评估

  • Processing Verification过程检验,检查所有模型组件是否 按设计运行

  • Benchmarking基准检验,与外部数据、模型进行比较

贷后管理

  • 入催:当前逾期

    • 忘记还款日逾期:轻微提醒即还款
    • 习惯性逾期:轻微提醒、人工催收提醒即还款
    • 资金困难,还款能力低:普遍回款率低
      • 多头借贷高负债:还款意愿低,需要较强催收策略
      • 暂时失去收入能力:还款意愿不差,但出催时间较久
    • 有还款能力但不还:需较强催收策略提高还款意愿
    • 欺诈:首逾,贷后没有解决办法
  • 出催:结清逾期账单

AB-Test划分客户

  • 步骤
    • 为各类客户设置有针对性的特别催收策略
    • 结合模型、规则初步初步设置筛选条件
      • 筛选出该类型客户
      • 将该类型客户分群A、B组
    • 在A组应用一般催收策略、在B组应用针对性策略,比较策略 出催效果
      • 针对性策略确定情况下,评估客户筛选条件
      • 客户筛选条件给定的条件下,评估针对性策略

M1客户

  • 对大部分公司的客群而言,M1阶段出催概率最大

    • 此阶段较为重要,可设置多个模型重点学习不同客群规律
    • 对不同客群施行不同催收策略,提高出催成功率
  • 缓催响应人群:出于遗忘造成的逾期

    • 在较短的缓催期内,简单的催收动作、或不催收即出催, 降低人力成本
      • 不催
      • 短信提醒
      • 邮件提醒
      • 机器人催收
    • 对缓冲人群内部,可以通过不断AB-Test细分缓催人群
      • 在不同时间段设置不同缓催方式
      • 为不同人群设置不同缓催方式
  • 非缓催人群

    • 按出催难易程度,区分为普通案件、专家案件(难催用户)
      • 难催客户入催早期还款概率远高于后期,在入催初期 即交由经验丰富
    • 对还款能力、还款意愿分析,应用不同话术和催收策略
      • 还款能力、还款意愿分析主要是根据特征变量设置
      • 对还款能力差而还款意愿强的客户,可通过延期等方式 提升用户体验
      • 对还款意愿弱的客户,通过催收动作提高还款意愿
    • 对催收敏感程度分析
      • 对催收动作敏感的人群,即催收动作越强,还款概率 越高,可以加强催收频率

rc_collection_m1

M2+客户

  • M2+客户催出概率较低
    • 若无特殊原因影响,发生过M2+用户需要重点关注
      • 委外处理会损失资金
      • 通过模型预测更易出催的客户,精细化人力管理
    • 为精细化催收可以构建多个阶段模型
      • 样本充足的情况下可以分别构建M2、M3模型
      • 样本不够时,则可以构建M2+模型,不断积累决策、 建模样本
    • 分析出催难易程度、催出敏感程度不同的客群,施行不同 催收策略

rc_collection_m2+

风控中数据分析

数据质量

特征数据挖掘

  • 确定分析目标
  • 假设分析
    • 对问题提出可能的假设
    • 评估假设的分析过程
  • 特征获取、关联分析
    • 找出信息片段之间直接、间接联系
    • 已知信息片段,寻找直接、间接联系的信息片段
  • 假设验证、模式归纳
    • 根据分析结论评估假设
    • 归纳规律特点

统计类特征构造

  • RFM 特征框架思想是构造统计类特征的基础

    • Recency:最近一次间隔
    • Frequency:最近一段时间次数
    • Monetary:最近一段时间金额
  • 结合业务统计、分析数据

    • 了解数据采集逻辑
    • 定义观察期有效性
      • 不同用户的数据厚薄程度(实际观察期长短)可能不同
  • 统计类特征构造方式

    • 数量统计类特征
    • 占比统计类特征
      • 去除量纲影响
      • 衡量用户行为偏好:时间偏好、类别偏好
    • 趋势统计类特征
      • 一般通过斜率衡量变化趋势
    • 稳定性衍生特征
      • 变异系数

特征变量评估

  • compliant 合规性
    • 法律允许
    • 来源可靠
  • stable 稳定性
    • 数据采集稳定性
    • 特征变量稳定性
      • 数据源采集稳定是变量稳定性的基本前提
      • 变量是模型的基础,数据不稳定必然导致模型稳定性差
  • available 可得性
    • 数据未来是否可以继续采集、计算
    • 涉及产品设计流程、用户授权协议、合规需求、模型应用环节
      • 业务流程更改导致埋点数据弃用、数据采集后移
      • RFM特征时间窗口支持
  • interpretable 可解释性
    • 数据是否具有明确、清晰的业务含义,便于理解
  • logical 逻辑性
    • 不容易绕过,逻辑上应该被采用

外部数据业务指标

  • 外部数据:三方平台根据自身业务场景所积累的数据,经脱敏 加工后对外输出,主要包括上述的信贷类数据、消费类数据
  • 性价比
    • 结合技术、业务效果、数据价格,综合计算性价比
    • 计价方式
  • 覆盖范围
    • 覆盖率
    • 查得率:能匹配用户数/总用户数

名单类数据

  • 自身效果评估
    • 混淆矩阵
      • TPRFPR
      • 准确率/误拒率
    • 提升度
      • 拒绝样本中坏样本提升度
      • 通过样本中好样本提升度
    • 通过率、拒绝率
  • 对比/增量效果评估:和其他数据源比较
    • 有效差异率:查得命中 / 其他通过且为坏样本
    • 无效差异率:查得命中 / 其他拒绝
  • 线下带标签场景的评估

数据描述

  • Exploratory Data Distribution 数据分布
    • 样本与总体分布应大致相同,则样本分布应保持稳定,因此 各特征统计值更应保持稳定
    • 按照自然月、特征维度,分析特征统计值变动
  • Missing Rate 缺失率
    • 缺失成因:随机缺失、系统性缺失
    • 缺失变动:特征缺失率持续升高,则预期未来数据采集率 下降
  • Unique Value
    • 若某固定值占比过高,则变量区别度往往很低
  • 特殊值检查
    • 缺失值如何表示
    • 零值的业务含义

稳定性

  • PSI:测试集、训练集间
    • 比较训练集、测试集变量的波动性
    • 无法反应细节原因,还需要 EDD 上分析

信息量

  • Coefficient of Variation 变异系数
    • 过小则区分度差
    • 过大可能不稳定
  • IV
    • 评估变量预测能力
    • IV值过高时注意信息泄露问题
  • RF/XGB 特征重要性
    • 适合快速筛选特征
    • 此重要性只有全局可解释性,无法对单个案例做出解释

信息重复

  • Variable Cluster 变量聚类:评估聚类意义上变量的“接近”程度
    • 层次聚类
  • Linear Correlation 线性相关性:评估变量间的线性相关性
    • Pearson Correlation Coefficient
    • 变量若通过WOE方式参与建模,则可以使用WOE值计算相关系数
  • Multicollinearity 多重共线性
    • VIF
  • 变量显著性
    • p-value
  • 建模(线性)中应该避免是参与建模的变量之间过强的线性相关,所以应该检查的是参与建模变量之间的线性相关
  • 变量衍生值、原始值相关性不一致是衍生非线性导致,不应减弱使用衍生值变量检查的合理性

样本数据质量

  • 代表性(狭义)
    • 数理统计最基本逻辑链是通过样本推断总体,因此样本对总体代表性决定推断上限
    • 根据标目标客群、好坏比例采样、赋权
      • 简单随机抽样,保持内部真实客群、好坏比例
      • 客群分层抽样,适应不同客群
      • 好坏不等比抽样,建模之后再按权重还原,充分捕捉 坏样本特征
  • 稳定性
    • 可用各 Vintage 内坏占比、lift 值、odds 等指标 PSI 衡量
    • 样本稳定性决定推断结果稳定性
    • 样本客群应该足够稳定,受节假日、周期影响小
  • 连续性
    • 样本时间连续便于建模中划分训练集、测试集(避免数据穿越)

特征分类

  • 还款能力

    • 收入:自填、三方
    • 负债:内部负债、外部负债、多头借贷
    • 学历:自填、三方
  • 还款意愿

    • 申贷行为:申贷记录、贷前贷后申贷行为变化
    • 履约行为:还款记录、逾期记录
    • 催记行为:催收记录

贷前数据

  • 主动数据/表填信息:客户主动提供
  • 被动数据:主动采集

资质、标签类数据

  • 客观数据:无第三方欺诈情况下可信

    • 性别
    • 年龄
    • 身份证号
    • 手机号
    • 手机号在多少个平台用户的通讯录中有存储
    • 手机号归属地
    • 户籍地址
    • 户籍地址是否来自非城市:除一线城市外,用身份证 地址是否包含“村”判断
    • 银行卡号
    • 银行卡发卡行
    • 签发机关
  • 主观数据:不可信,可对这部分数据做交叉验证,检查是否前后矛盾

    • 紧急联系人号码
    • 紧急联系人消息
    • 紧急联系人是否为平台用户
    • 学历
    • 工作
    • 月收入
    • 公司
    • 负债
    • 地址
    • 紧急联系人手机号归属地是否和账户手机号归属地一致
    • 手机联系人手机号归属地是否和申请人户籍地一致

信贷类数据

  • 人行征信报告
  • 三方征信数据:通过各机构贷前审批、贷后管理等记录
    • 收入数据
    • 负债数据
      • 多头负债
      • 共债
    • 多头借贷数据
    • 黑名单
    • 信用评分
    • 原始数据(极少)

生活行为类数据

  • 消费行为:资金用途,是否专款专用、不良用途
    • 信用卡、借记卡账单和流水
    • 电商消费记录数据
  • 收入能力:收入直接影响还款能力
    • 流动资产:工资、公积金
    • 固定资产
  • 出行行为数据
  • 短信通道:识别内容,提取放款、逾期、催收等特征
  • 支付通道:通过支付代扣记录,提取用户收入、支出等 现金流
  • 手机输入法:识别内容,提取全方位信息

设备行为类数据/埋点数据

  • 埋点数据量庞大而杂乱

    • 需要结合业务逻辑分析,从账户角度思考,挖掘有用的特征
  • 行为类数据为弱金融属性数据,多用于交叉验证

    • GPS与手机号归属地一致
    • IP与GPS所在城市是否一致
    • IP与手机号归属地是否一致
    • 工作时间的LBS是否与公司地址一致
    • 非工作时间的LBS是否与家庭地址一致

设备特征

  • 设备恒定特征

    • 是否root
    • 是否hook
    • 是否为实体手机
    • 是否为一键新机
    • 是否为二手手机:欺诈更倾向于使用二手手机
      • 系统文件
      • 是否恢复出厂设置
    • 品牌
    • 价格
    • 操作系统
    • 设备迁移方向
  • 设备易变特征

    • 传感器参数:在互联网反欺诈中,常用于侦测非实体手机, 而金融场景中更多是真机
      • 角度传感器
      • 压力传感器
    • 电压、电量:手机电压、电量呈上升趋势,表示账户资金 需求更急迫

行为数据

  • 活动轨迹:取决于埋点的精细程度

    • 夜间申请
    • User-agent
    • 点击次数
      • 申请前次数低于大盘:账户对产品了解,意图明显
      • 授信后点击次数过高:账户对产品有犹豫
    • 激活+粘贴
      • 正常申请流程中较少存在中途退出申请的必要
      • 而中介更可以多次切换应用,复制粘贴
    • 截图
      • 中介更有可能截图制作教程、展示流程等
    • 时间间隔:更适合作为欺诈模型参数
      • 注册到申请
      • 登录到申请
      • 各申请步骤
      • 申请到完成
      • 授信到用信
      • 上次申请与本次申请时间间隔
    • 切换设备登陆
    • 身份证提交次数
  • 内容偏好

环境信息

  • LBS信息:可以提高观察粒度保证容错率
    • GPS所在城市
    • LBS是否在非城市
    • 同LBS是否多个申请
    • LBS周围是否多个申请
  • 网络信息
    • 网络类型:Wifi/4g/3g
    • 相同Wifi MAC的申请人数
    • Wifi名称是否命中风险关键词
  • IP地址
    • 相同IP的申请人数
    • IP所在城市
    • IP是否来自数据中心

贷中、贷后指标

贷中数据维度

  • 内部信贷行为数据
    • 申贷行为
      • 历史申贷记录
      • 贷前、贷后申贷行为
    • 还款
      • 分期期数
      • 首期逾期天数
      • 当前月正常拆分扣款总次数
      • 当前3个月内还款最大金额
      • 历史最大逾期天数
      • 首次成功还款时间距离当前时间
    • 催收
      • 催收记录
    • 履约历史
      • 提前还款:资金充足、重视信用记录
      • 习惯性逾期:手头紧张、不够重视信用记录
  • 活跃行为
    • 失联
    • 用户登录
  • 账户特征
    • 授信额度使用率
    • 代偿余额

时间窗口

obeservation_and_performance

  • Observation Point观察点:账户申请的时间段,该时间段内 客户可能用于建模

    • 从风控应用角度,观察点即对账户授信审核的时点,此时 能够获得所有信息只能在观察点前的观察期
  • Observation Window观察期:构造特征的事件窗口

    • 观察期选择依赖用户数据的厚薄程度,数据越厚,可提取 信息越全面、可靠
  • Performance Window表现期:定义好坏标签的时间窗口

    • 风险需通过一定时间窗口才能表现,即信贷风险具有滞后性
    • 表现期越长
      • 信用风险暴露越彻底
      • 也意味着观察期离当前越远,用以提取样本特征的历史 数据越陈旧,建模样本和未来样本差异越大
    • 应当选择合适的表现期以覆盖足够多的坏客户

说明

  • 表现期的选择

    • 对信用卡场景的稳定客群、长期限产品,可用滚动率、账龄 分析确定表现期、好坏
    • 但对小额信贷产品,实务中一般结合产品期限,沿用常用 指标,如:表现期设置为产品期限一半
  • 建模样本窗口选择

    • 特征覆盖度:保证数据厚薄程度相同
    • 客群没有大幅变动
      • 特征
      • 标签:逾期、出催等

Month on Book/MOB:账龄

  • 统一观察点账龄:统计信息为观察点实时信息,但会导致 订单表现期不同

    • MOB0:放款日至当月月底
    • MOB1:放款后第二个完整月份
    • MOB2:放款后第三个完整月份

    mob_at_a_specified_time_point

  • 统一表现期账龄:保证订单表现期相同

    • MOB1:放款日开始30天
    • MOB2:放款日开始30天至60天

    mob_spanning_specified_time_range

逾期、不良

  • Payment Delinquency:逾期
    • First Payment Delinquency/FPDx:首期逾期(天数)
    • Current Payment Delinquency/CPDx:当前逾期
    • Historical Payment Delinquency/HPDx:历史逾期
  • Day Past Due/DPDx:逾期天数

逾期期数

  • C/M0:当前未逾期
  • M1:DPD1 - DPD30
  • M6:逾期151-180日
  • M7/Bad Debts:逾期180日以上
  • 对信用卡场景而言,M0为账单日到还款日之前,而对信贷 场景,M0没有对应时间段

逾期率

  • 两种计算口径
    • 逾期率 = 逾期订单数 / 总订单数
    • 逾期率 = 逾期订单金额 / 总订单金额
  • 逾期口径调整
    • 逾期统计时间窗口:历史、当年
    • 逾期后还上
    • 担保、代偿
    • 多期逾期是否计算剩余未还
  • 总数调整
    • 统计时间窗口:历史、当年
    • 已发放还是余额
  • 客观反映风控、资产质量的观察期选择
    • Coincidental Delinquency:固定观察时点,以截至 观察时点前逾期金额、余额计算
    • Lagged Deliquency:按照账龄分析方法,将各月份 逾期金额、金额计算真实逾期率

不良率

  • 不良率 = (次级+可疑+损失)/ 总
    • 次级、可疑、损失在银行内有明确规定,但不完全按照逾期 天数划分
    • 同体系内内比较不良可行,但和不同体系间没有可比较性

Expected Loss

  • Expected Loss预期损失

  • Probabilty of Default违约概率

    • 资产质量越差,违约概率越高
    • 可以把对应逾期状态至呆账状态,各状态间迁移率链式相乘 得到违约概率
  • Loss Given Default违约损失率:账户违约后,能够回收的 本金比例

  • Bad Debt Reserve坏账准备金/拨备

    • 把未偿清金额按照一定准备金比例储备,用于覆盖预期的 未来呆账损失
    • 应该等于预期损失

资产质量分析

  • 资产质量:根据逾期天数将资产划分为不同等级
账龄分析 滚动率分析 迁移率分析
观察点 多个观察点 单个观察点 多个观察点
观察窗口 观察点后各期 观察点前后一段期限 观察点后各期
工具 Vintage曲线 迁移矩阵 迁移率
分析要素 各观察点、各期逾期情况 各逾期状态间迁移情况 各期、各逾期状态下沉情况

Vintage Analysis

账龄分析:对不同时点资产分别跟踪,按照账龄长短对齐后对比, 分析不同时点贷款贷后质量

vintage_analysis_sample

  • 用途
    • 确定账户成熟期/稳定期
      • 以逾期率趋于稳定所需时间作为判断客户好、坏区分 所需时间
      • 辅助定义表现期/成熟期
    • 确定资产质量
      • 以曲线平缓处对应逾期率衡量资产质量
    • 分析变化规律:分析逾期率变化情况
      • 前几期逾期率上升快:短期风险未能控制,欺诈风险高
      • 曲线一直上升:信用风险识别能差
    • 分析影响因素(资产质量),指导风控策略调整
      • 风控策略收紧放松
      • 客群变化
      • 市场环境
      • 政策法规等
  • vintage起源于葡萄酒品质分析,vintage即指代葡萄酒的 批次标签,每年对各批次抽样、记录即得到vintage曲线

Roll Rate Analysis

滚动率分析:利用观察期、表现期违约程度的状态转移矩阵分析 违约程度变化情况

roll_rate_analysis_transition_matrix

  • 滚动率分析步骤

    • 准备
      • 确定数据源:一般为还款计划表
      • 定义逾期状态
    • 统计观察期:以观察点为截至时间,统计客户在观察期最长 逾期期数,并据此对用户分级C、M1、M2等
    • 统计表现期:以观察点起始,统计客户在表现期内最长逾期 数,并据此对用户分级C、M1、M2等
    • 根据以上数据绘制列联表、计算频率
    • 为排除观察点选择影响,选择多个观察点重复以上
  • 滚动率分析用途

    • 分析客户好坏程度、变化情况,确定客户好坏界限

Flow Rate Analysis

迁移率分析:利用违约程度变化计算迁移率,分析违约程度变化规律

flow_rate_analysis

  • Flow Rate迁移率:资产等级下滑的比例

    • 迁移率 = 前等级逾期金额到下一等级逾期金额的转化率
      • M0-M1 = 当月进入M1余额 / 上月末M0余额
  • 核心假设

    • 处于某一逾期状态的账户,一个月之后,必然从良为非逾期 账户,或恶化为下一级逾期账户
    • 状态不会有跃迁,所以一期仅有一组下沉迁移率
  • 迁移率分析步骤

    • 准备
      • 确定数据源:一般为还款计划表
      • 定义逾期状态
    • 计算各月份、各逾期状态之间迁移率
    • 计算不同月份平均迁移率
    • 根据平均迁移率和不良资产回收率,计算净坏账损失率
  • 作用

    • 展示账户整个生命周的变化轨迹
      • 预测未来坏账损失:各级迁移率乘积得到最终损失率
      • 计算坏账计提标准、资产拨备
    • 观察迁移率发展轨迹
      • 分析贷款催收率、催收力度
      • 监控坏账发展倾向和催收效果
    • 确定好坏客户标准
      • 即选择迁移率较高的状态作为划分点

评分卡模型

模型

  • 模型是策略的工具,策略包含模型,是模型的延伸

    • 相较于专家规则,机器学习模型
      • 允许加入更多特征维度,描述更加全面
      • 上限更高、下限更低
      • 涉及更多维度特征时,维护更方便
    • 机器学习模型和专家规则并非相互替代,更多的是串联
  • 业务问题转换为带解决数学问题

    • 尽量将业务问题转换为更容易解决分类问题而不是回归问题
    • 数学问题应尽量贴近业务:评估指标好不等于业务价值高
      • 远离业务问题的训练出模型,其线下评估效果好也不意味着上线效果好,如:针对客户而不是订单评价
      • 影响客户体验,如:客户等待时间预估偏低而不是偏高
  • 样本构造

    • 标签定义
      • 尽量为客观事实(是否、数量),而非主观判断(等级)
      • 样本粒度贴合实际、业务(订单粒度、客户粒度)
    • 样本数量
      • 二分类场景:正例样本大于 2000,占比超过 1%
    • 采样
      • 尽量不进行人工采样,保持训练数据正、负例比例和真实情况对齐

传统评分卡

评分卡 复杂学习
特征筛选 需筛选强特征,依赖业务经验 支持弱特征入模
特征处理 WOE 分箱,稳定性好
非线性 WOE 分箱提供非线性,解释性好 非线性充分挖掘数据信息,解释性差
复杂度 模型简单,泛化性好,样本需求小 模型复杂,表达能力强,样本少时容易过拟合
调参 超参少 调参难度大
模型提升方向 分(样本)群建模 Stacking 结合评分卡
  • 信用评分卡模型:利用模型将账户的属性特征按取值分组、并赋予一定分数,对账户进行信用评分

    • 最常见的金融风控手段之一,用于决定是否给予授信以及授信的额度和利率
    • 常用逻辑回归作为模型
    • 应用形式为查分组得分表、得分加和
      • 变量总是被分组,同组内得分相同
      • 用户属性变化不足以跨越箱边界,则得分不改变
  • 评分卡更关注得分相对值,即得分变动情况,评分绝对值含义意义不大

    • 常用 LRsigmoid 函数内线性函数结果作为初始得分
      • 根据 LR 意义,此时得分可以映射为账户的违约概率
    • 为美观,可能会对得分做线性变换
      • 常对各特征得分做放缩、对账户得分和做平移,此时放缩比例除以 $ln2$ 即为 PDO (对特征得分同时做等比例放缩、平移可行但蠢)
      • 线性变换后得分绝对值无意义,特征重要性可用特征各分组得分差距衡量
  • 评分卡在不同业务阶段体现的方式、功能不一样,按照借贷用户借贷时间可以分为

    • 申请评分卡 Application Score Card:贷前申请评分卡
    • 行为评分卡 Behavior Score Card:贷中行为评分卡
    • 催收评分卡 Collection Score Card:贷后催收评分卡

Stacking 评分卡

  • 考虑将评分卡、机器学习模型结合,使用机器学习模型构建特征,在此基础之上建立评分卡模型
  • Stacking 思想下的模型架构

    • 原始数据域
    • 数据挖掘、特征工程
    • 数据域特征子模型
    • 评分卡模型
  • 架构优势

    • 可解释性:保留在数据域粒度上的可解释性
    • 信息提取:子模型提取弱特征信息,降低特征工程门槛
    • 维度多样性:特征子模型机制,降低特征筛选必要性,保证各数据域都有特征入模
    • 模块化:具有良好扩展性,支持子模型替换、删除
    • 并行化:各数据域特征子模型专业、独立负责,提高效率
  • 架构劣势

    • 牺牲部分可解释性:若策略、模型使用相同变量,策略阈值调整对模型影响难以估计
      • 控制入模变量数目,便于快速定位
      • 利用 SHAPLIME 等工具解释模型
    • 增加上线、维护成本:需要上线多个模型,且对多个架构多个层次都进行监控
    • 协同建模增加对接成本
    • 分数据域特征子模型建模,容易造成数据孤岛,无法捕捉不同数据域间的数据联系
      • 跨数据域构造特征,构建跨数据域子模型

B 卡 - Behavior Scoring

贷中风控:根据借款人放贷后行为表现,预测未来逾期风险

  • B 卡用于动态监控放款后风险变化

    • 贷前阶段对借款人履约行为掌握少,且为静态数据
    • 一般无需实时,离线T+1计算即可
  • B 卡适合的信贷场景

    • 还款周期长
      • 长周期场景用户风险变化可能性大,与 A 卡形成区分
      • 引入贷中客户信息、还款履约行为,更准确识别客户逾期风险
    • 循环授信
      • 贷前阶段,无法很好识别客户风险,设置初始额度
      • 贷中与客户更多交互之后,可根据获取的贷中行为信息进行提额、降额操作
  • B 卡区分度一般很高

    • 除贷前数据之外,还可以使用账户的贷中表现数据
    • 特别的,不考虑排序性的情况下,使用是否逾期作为划分依据也能得到较高的 TPR-FPR,给出 KS 的下限
  • B 卡建模主要基于老客

    • 老客有足够长的申贷、还款记录
    • 新、老客定义口径
      • 新客:无历史结清订单
      • 老客:至少有1笔结清订单

C 卡 - Collection Scoring

贷后催收评分卡:当前状态为逾期情况下,预测未来出催可能性

  • 现阶段业界对 C 卡不够重视

    • 贷前风控最重要,优秀的贷前带来更容易的贷中、贷后
    • 催收效果和人员更相关,而逾期发生之后往往会委外
    • 随信贷行业的发展,贷后催收会趋向于精细化、专业化的发展,模型+策略的优化愈发重要
  • 模型分群

    • 新老入催用户
      • 首次入催
      • 再次入催
    • MOB 信息(数据厚薄)
      • 还款月份数
      • 催记月份数
    • 订单详情
      • 利率
      • 期限
      • 金额

样本选择

  • 建模样本窗口选择

    • 特征覆盖度:保证数据厚薄程度相同
    • 催收动作变化:出催没有大幅度变动
    • 客群变化:入催没有大幅变动
  • 同用户订单合案

    • 不合案:同用户多笔订单视为不同样本
      • 表现期内入催当期结清视为出催
    • 合案:同用户相近观察点入催订单合并
      • 表现期内入催当期所有账单还清视为出催
      • 对发生过 M2+ 逾期者,可将只要出催一期即视为出催

C 卡模型

  • 根据模型作用时间段分类
  • M1 全量模型:预测 M1 阶段(逾期 30 天内)还款概率

    • 样本:所有入催样本整体
      • 若缓催期内催出用户较多,则模型主要学习了缓催样本信息,约等于缓催响应模型,对非缓催样本效果较差
    • 时间窗口
      • 观察点:还款日
      • 表现期:M1 阶段
  • 缓催响应模型:预测适合缓催人群

    • 样本:需要积累足够的缓催响应样本
      • 若有足够缓催响应样本,可以和M1全量模型同时构建
      • 否则,在 M1 全量模型得分高(出催概率高)人群上进行 AB Test,积累缓催响应样本
    • 时间窗口
      • 观察点:还款日
      • 表现期:缓催响应日(2-3 天)
  • 贷后 N 天流转模型:预测贷后N天后的还款概率

    • 样本:缓催内未出催样本
      • 去除缓催样本影响,更多学习缓催期外出催样本信息
      • 优先对催出概率高的人群进行催收,提高出催概率
    • 时间窗口
      • 观察点:还款日(逾期)后 N
      • 表现期:至下个流转模型观察点、逾期阶段结束时间点
  • M2+ 模型:预测 M2+ 阶段的还款概率(类似贷后流转模型)

    • 样本:M1 阶段未出催样本
    • 时间窗口
      • 观察点:M2 阶段起始
      • 表现期:至下个流转模型观察点、逾期阶段结束时间点

模型应用方法

  • 缓催响应人群确定

    • 交叉 M1 模型、缓催响应模型,根据模型交叉结果设置阈值
    • 根据阈值筛选缓催响应人群
    • 限定缓催期(2-3 天),将缓催响应样本分为人工催收、缓催两组,观察两组在缓催期限内出催率变化
      • 若出催率相同,则认为缓催响应人群分析方法可行,对缓催响应人群可采取缓催策略
      • 若出催率相差较大,则调整缓催响应人群分析方法
    • 缓催模型响应时间(缓催期)可根据响应时间段内的出催率变化设置
  • 模型搭建策略

    • M1 阶段出催概率较大,在M1阶段会设计多个细分模型
      • 至少:M1 阶段全量模型
      • 缓催样本足够
        • 缓催响应模型
        • 贷后 N 天流转模型
      • 精细化管理:多个不同时间窗口的贷后流转模型
    • M2+ 阶段根据样本量、精细化程度设置适量模型

开发流程标准化

  • 风控模型开发流程标准化意义
    • 提高建模效率:可批量快速生产模型,提高效率
    • 帮助理解指标逻辑、业务含义,利于调试优化
    • 流程规范约束
      • 统一建模流程,减少出错概率、便于问题回溯
      • 统一命名方式,便于汇总文档

数据预处理

特征编码

  • 特征离散化

  • WOE 编码特征

    • WOE 曲线应符合业务逻辑(一般单调),并且经过跨时间 窗口验证,否则应该调整
    • LR 模型中特征权重应该全为正值,否则
      • 同数据 WOE 值体现的逻辑相违背
      • 负值权重特征存在较严重共线性
  • one-hot 编码特征

    • 同特征下个分箱单独作为独立变量取值
      • 权重灵活性更大,模型效果可能较好
      • 变量数量多,需要样本数量大,模型效果可能较差(随机解法)
    • 各特征分箱之间无联系,难以通过模型剔除某个变量

样本赋权

  • 样本赋权:充分利用所有样本的信息,避免样本有偏
    • 按样本距今时间赋权,近期样本高权重
    • 按业务特性赋权,不同额度、利率、期限不同权重
    • 按账户类型赋权

拒绝推断

  • Reject Inference 拒绝推断:避免样本偏差导致模型估计过于乐观

Exploratory Data Analysis

  • 风控领域样本较少,一般按月粒度观察,即将样本按月分组为 vintage 进行分析,探索、评估数据

    • 稳定性
    • 信息量
    • 信息重复/相关性
  • 实操中可逐阶段设置多组阈值,分布进行变量探索、筛选

    • 多组阈值逐步剔除能尽可能保留高信息量特征
    • 避免相关性、RF 特征重要度等 非单变量指标 剔除过多特征

模型评估

  • 有效性/区分度

    • GINI 指数
    • KS
    • 坏样本率:组内、累计
    • 提升度 = 召回样本坏样本率 / 全部样本坏样本率
    • odds = 坏样本率 / 好样本率
  • 排序性

    • AUC 值/ROC 曲线
  • 稳定性

    • PSI
    • Vintage 内坏占比、Lift 值、odds 等指标稳定性
  • 模型得分展示表

    • 箱内样本数
    • 好、坏样本数
    • 箱内坏样本、比例
    • 累计好、坏样本
    • 累计好、坏样本比例:TPRFPRTPR-FPR
    • 累计通过率、坏样本比例

模型应用

Calibration 模型校准

  • 一致性校准:将模型预测概率校准到真实概率
  • 尺度变换:将风险概率转换为整数分数

导出得分

  • 原始得分

    • one-hot 编码:LR 模型系数
    • WOE 编码:LR 模型系数(权重)、WOE 值之积
  • 常对各特征得分做放缩、对账户得分和做平移

    • PDO:违约翻倍得分
      • 用于缩放原始得分
      • 得分按 $\frac {PDO} {ln2}$ 缩放后,得分减少 $PDO$ 分,用户违约 odds 翻倍,缺省即 $ln2$
    • 账户得分总和平移则仅仅是为了美观
    • 对特征得分同时做等比例放缩、平移可行但蠢

Word2Vec

Word2Vec

Word2Vec:word embeding的一种,使用层次化softmax、负采样 训练词向量

Hierarchical Softmax

层次Softmax

word2vec_hierarchical_softmax

  • 对所有词向量求和取平均作为输入层到隐层的映射 (特指CBOW模型)

  • 使用霍夫曼树代替从隐藏层到输出softmax层的映射

思想

  • softmax需要对$m$个类别求出softmax概率,参数多、计算复杂

  • 考虑将$m$个类别划分为多个二分类sigmoid,即

    • 将总类别划分为两组
    • 依次判断数据点属于哪组
    • 直至数据点所属组仅包含一个类别
  • 则多个sigmoid划分构成一棵二叉树,树叶子节点即为$m$ 类别

    • 二叉树结构可以由多种,最优二叉树应该使得对整个 数据集而言,sigmoid判断次数最少
    • 即应该使用按照数据点频数构建的霍夫曼树
    • 霍夫曼树

模型

  • 输入$x^T$所属类别霍夫曼编码为$d={d_1,\cdots,d_M}$, 则应最大化如下似然函数

    • $w_j, b_j$:节点$j$对应sigmoid参数
    • $P(d_i)$:以sigmoid激活值作为正例概率 (也可以其作为负例概率,但似然函数需更改)
  • 则对数似然函数为

梯度计算

  • 则参数$w_{j_M}$梯度如下

  • 词向量$x$梯度如下

CBOW流程

  • 特征词周围上下文词均使用梯度更新,更新输入
  • 基于预料训练样本建立霍夫曼树
  • 随机初始化模型参数$w$、词向量$w$
  • 对训练集中每个样本 $(context(x), x)$($2C$个上下文)如下 计算,直至收敛

    • 置:$e=0, xw=\frac 1 {2C} \sum{c=1}^{2C} x_c$

    • 对$x$的霍夫曼编码 $d={d_1, \cdots, d_M}$ 中 $d_i$ 计算

    • 更新 $2C$ 上下文词对应词向量

Skip-Gram流程

  • 考虑上下文是相互的,则 $P(x{context}|x)$ 最大化时,$P(x|x{context})$ 也最大
  • 为在迭代窗口(样本)内更新仅可能多词向量,应该最大化 $P(x|x_{context})$,使用梯度更新上下文 $2C$ 个词向量,更新输出(条件概率中更新条件)
  • 基于预料训练样本建立霍夫曼树
  • 随机初始化模型参数 $w$、词向量 $w$
  • 对训练集中每个样本 $(x, context(x))$、每个样本中上下文词向量 $x_c$($2C$ 个上下文),训练直至收敛

    • 置:$e=0$

    • 对 $x$ 的霍夫曼编码 $d={d_1, \cdots, d_M}$ 中 $d_i$ 计算

    • 更新 $2C$ 上下文词对应词向量

Negtive Sampling

负采样

思想

  • 通过负采样得到$neg$个负例
  • 对正例、负采样负例建立二元逻辑回归

模型、梯度

  • 对类别为$j$正例、负采样负例应有如下似然函数、对数似然 函数

    • $y_i$:样本点标签,$y_0$为正例、其余负例
  • 同普通LR二分类,得到参数、词向量梯度

负采样方法

  • 每个词对应采样概率为词频取$3/4$次幂后加权

CBOW流程

  • 随机初始化所有模型参数、词向量
  • 对每个训练样本$(context(x_0), x_0)$负采样$neg$个中心词 $x_i$,考虑$x_0$为类别$j$
  • 在以上训练集$context(x0), x_0, x_1, \cdots, x{neg}$中 训练直至收敛

    • 置:$e=0, xw=\frac 1 {2C} \sum{c=1}^{2C} x_c$

    • 对样本$x0, x_1, \cdots, x{neg}$,计算

    • 更新$2C$上下文词对应词向量

Skip-gram中心词

  • 类似Hierarchical Softmax思想,更新输出$2C$个词向量
  • 随机初始化所有模型参数、词向量
  • 对每个训练样本$(context(x_0), x_0)$负采样$neg$个中心词 $x_i$,考虑$x_0$为类别$j$
  • 以上训练集$context(x0), x_0, x_1, \cdots, x{neg}$中, 对每个上下文词向量$x_c$如下训练直至收敛

    • 置:$e=0$

    • 更新$2C$上下文词对应词向量

CTR Stacking Models

深度学习CTR

stacking_nn_models_envolution_network

Deep Crossing

Deep Crossing:深度学习CTR模型最典型、基础性模型

deep_crossing_structure

  • multiple residual units:残差网络

Factorization Machine based Neural Network

FNN:使用FM隐层作为embedding向量,避免完全从随机状态训练 embedding

fnn_structure

  • 输入特征为高维稀疏特征,embeddingd层与输入层连接数量大、 训练效率低、不稳定

  • 提前训练embedding提高模型复杂度、不稳定性

Product-based Neural Network

PNN:在embedding层、全连接层间加入product layer,完成 针对性特征交叉

pnn_structure

  • product layer:在不同特征域间进行特征组合,定义有 inner、outer product以捕捉不同的交叉信息,提高表示能力

  • 传统DNN中通过多层全连接层完成特征交叉组合,缺乏针对性

    • 没有针对不同特征域进行交叉
    • 不是直接针对交叉特征设计

Wide&Deep Network

Wide&Deep:结合深层网络、广度网络平衡记忆、泛化

wide_and_deep_structure

  • deep models:基于稠密embedding前馈神经网络
  • wide models:基于稀疏特征、特征交叉、特征转换线性模型
  • 基于记忆的推荐通常和用户已经执行直接相关;基于泛化的推荐 更有可能提供多样性的推荐
  • memorization:记忆,学习频繁出现的物品、特征,从历史 数据中探索相关性
  • generalization:泛化,基于相关性的transitivity,探索 较少出现的新特征组合

  • https://arxiv.org/pdf/1606.07792.pdf

  • wide&deep系模型应该都属于stacking集成

Google App Store实现

wide_and_deep_logit_structure

  • wide部分:cross product transformation

    • 输入
      • 已安装Apps
      • impression Apps
      • 特征工程交叉特征
    • 优化器:带L1正则的FTRL
  • Deep部分:左侧DNN

    • 输入
      • 类别特征embedding:32维
      • 稠密特征
      • 拼接:拼接后1200维 (多值类别应该需要将embedding向量平均、极大化)
    • 优化器:AdaGrad
    • 隐层结构
      • 激活函数relu优于tanh
      • 3层隐层效果最佳
      • 隐层使用塔式结构

DeepFM

DeepFM:用FM替代wide&deep中wide部分,提升其表达能力

deepfm_structure

  • Dense Embeddings:FM中各特征隐向量,FM、DNN公用
  • FM Layer:FM內积、求和层
  • 特点(和Wide&Deep关键区别)

    • wide部分为FM (deep&wide中wide部分有特征交叉,但依靠特征工程实现)
    • FM、DNN部分共享embedding层
  • 同时组合wide、二阶交叉、deep三部分结构,增强模型表达能力

    • FM负责一阶特征、二阶特征交叉
    • DNN负责更高阶特征交叉、非线性

实现

  • DNN部分隐层

    • 激活函数relu优于tanh
    • 3层隐层效果最佳
    • 神经元数目在200-400间为宜,略少于Wide&Deep
    • 在总神经元数目固定下,constant结构最佳
  • embedding层

    • 实验中维度为10

Deep&Cross Network

Deep&Cross:用cross网络替代wide&deep中wide部分,提升其 表达能力

deep_and_cross_structure

  • 特点(和WDL、DeepFM区别)

    • 使用交叉网络结构提取高阶交叉特征
      • 无需特征工程(WDL)
      • 不局限于二阶交叉特征(DeepFM)
  • 交叉网络可以使用较少资源提取高阶交叉特征

https://arxiv.org/pdf/1708.05123.pdf

交叉网络

交叉网络:以有效地方式应用显式特征交叉,由多个交叉层组成

cross_network_cross_layer

  • $x_l$:第$l$交叉层输出
  • $w_l, b_l$:第$l$交叉层参数
  • 借鉴残差网络思想

    • 交叉层完成特征交叉后,会再加上其输入
    • 则映射函数$f(x_l, w_l, b_l)$即拟合残差
  • 特征高阶交叉

    • 每层$x_0 x_l^T$都是特征交叉
    • 交叉特征的阶数随深度$l$增加而增加,最高阶为$l+1$
  • 复杂度(资源消耗)

    • 随输入向量维度、深度、线性增加
    • 受益于$x_l^T w$为标量,由结合律无需存储中间过程矩阵

Nueral Factorization Machine

NFM:用带二阶交互池化层的DNN替换FM中二阶交叉项,提升FM的 非线性表达能力

  • $f_{DNN}(x)$:多层前馈神经网络,包括Embedding LayerBi-Interaction LayerHidden LayerPrediciton Layer
  • $h^T$:DNN输出层权重

模型结构

nfm_structure

Embedding Layer

全连接网络:将每个特征映射为稠密向量表示

  • $v_i$:$k$维embedding向量
  • 只需要考虑非0特征,得到一组特征向量
  • 特征向量会乘以特征值以反映真实值特征 (一般embedding特征取0/1,等价于查表)

Bi-Interaction Layer

BI层:将一组embedding向量转换为单个向量

  • $\odot$:逐元素乘积
  • 没有引入额外参数,可在线性时间$\in O(kM_x)$内计算
  • 可以捕获在低层次二阶交互影响,较拼接操作更 informative,方便学习更高阶特征交互
  • 将BI层替换为拼接、同时替换隐层为塔型MLP(残差网络) 则可以得到wide&deepDeepCross
  • 拼接操作不涉及特征间交互影响,都交由后续深度网络学习 ,实际操作中比较难训练

Hidden Layer

隐层:普通多层嵌套权重、激活函数

  • $l=0$没有隐层时,$f_{\sigma}$原样输出,取$h^T$为 全1向量,即可得FM模型

Attentional Factorization Machines

AFM:引入Attention网络替换FM中二阶交互项,学习交互特征的 重要性,剔除无效的特征组合(交互项)

  • $\varepsilon$:隐向量集,同上
  • $p^T$:Attention网络输出权重

模型结构

afm_structure

Pair-Wise Interaction Layer

成对交互层:将m个embedding向量扩充为$m(m-1)/2$个交互向量

  • $R_X = {(i,j) | i \in X, j \in X, j > i }$
  • $v_i$:$k$维embedding向量

Attention-based Pooling

注意力池化层:压缩交互作用为单一表示时,给交互作用赋不同权重

  • $a{i,j}$:交互权重$w{i,j}$的注意力得分
  • $\odot$:逐元素乘积
  • 考虑到特征高维稀疏,注意力得分不能直接训练,使用MLP attention network参数化注意力得分

    • $W \in R^{t*k}, b \in R^t, h \in R^T$:模型参数
    • $t$:attention network隐层大小

Deep Interest Network

DIN:融合Attention机制作用于DNN

模型结构

din_stucture

activation unit

激活单元

  • 相较于上个结构仅多了直接拼接的用户、上下文特征 din_stucture_comparision

模型训练

Mini-batch Aware Regularization

  • 以Batch内参数平均近似$L_2$约束
  • $W \in R^{K * M}, W_i$:embedding字典、第$i$embedding 向量
  • $K, M$:embedding向量维数、特征数量
  • $B, B_j$:batch数量、第$j$个batch
  • 则参数迭代

Data Adaptive Activation Function

PReLU在0点处硬修正,考虑使用其他对输入自适应的函数替代,以 适应不同层的不同输入分布

Deep Interest Evolution Network

DIEN:引入序列模型AUGRU模拟行为进化过程

模型结构

dien_structure

  • Interest Extractor Layer:使用GRU单元建模历史行为依赖 关系

? 关系

视频推荐

Matching

基于用户行为

离线协同过滤

  • 根据用户行为日志,利用物品-based协同过滤生成离线的 物品2物品相似度矩阵、用户离线推荐结果

    • 基于艾宾浩斯遗忘曲线按照时间进行降权
    • 弱化热点影片的权重
    • 矩阵分解
  • 基于用户的playlog接口实时获取用户的短时间内的观看历史, 通过物品2物品相似度矩阵进行CF扩散,提取出与用户短时间内 观看历史相似的topN个物品用于召回

  • 用户的CF离线推荐结果直接作为线上服务的召回渠道

W2V

  • 全部影片作为预料库、观看历史按时序排列视为文档,计算所有 物品的词向量

  • 根据词向量计算物品2物品相似度矩阵,用于线上playlog召回 数据

LDA

  • 基于概率主题模型:文档-潜在主题-词三级关系,映射/类比到 用户行为数据:用户-潜在兴趣-资源

  • 通过用户历史行为记录,提取LDA中间产物、用户的潜在兴趣 向量、资源潜在主题分布向量

  • 基于物品的主题向量,进行物品2物品相似度计算,用于线上 playlog召回数据

SimRank

  • 将用户、物品关系视为二部图,考虑相似关系可以在图上传播 思想,使用SimRank计算物品相似队列

基于内容

基于标题

  • 对影片文本简介使用doc2vector,计算资源的表示向量
  • 使用资源的表示项集计算物品2物品相似度矩阵

基于Style

基于Tag

其他方向

  • RNN捕捉用户在点击序列中的模式,利用点击行为发生先后顺序 调整推荐展示顺序

  • Graph Embedding

Ranking

特征工程

  • 低维稠密通用特征:泛化能力良好、记忆能力差

    • embedding特征
    • 统计特征
  • 高维稠密特征:记忆能力较好

    • 视频ID
    • 标签
    • 主题

分类

  • 按特征来源分类

    • 物品特征:资源风格、低于、类型、标签、统计特征
    • 用户特征:性别、年龄、婚姻状况、收入预测
    • context特征:网络状态、时间段、城市
    • 交叉特征
  • 按特征更新频率、获取方式

    • 离线特征:变化缓慢,如:用户、物品基本特征、统计特征
    • 近在线特征:分钟级、小时级需要更新的特征,如:ctr
    • 在线特征:每次请求达到实时获取特征,如:网络状态、 请求时间

特征扩充

  • 用户兴趣向量丰富用户维度上兴趣特征

    • LDA中间产物作为用户潜在兴趣向量
    • W2V词向量、用户行为历史统计出用户兴趣向量
  • 资源embedding向量丰富物品维度特征

    • 用户行为数据embedding得到W2V、LDA词向量
    • 资源标题embedding得到doc2vector词向量
  • 资源封面AutoEncode向量

    • 基于资源封面采用自编码器训练,提取隐层向量作为资源 特征

统计特征细化

  • 特征工程时间窗口细化:按不同时间窗口分别计算资源的统计 特征

    • 丰富资源特征
    • 融入时间衰减因素
  • 在线特征交叉:交叉特征增加样本特征的区分度

连续特征离散化

  • 目标:避免特征为长尾分布、大部分取值集中在小范围,对样本 区分度差
  • 等频离散化:等频分桶、独热编码
  • 对数转化

采样策略

  • 负样本采样策略调整:基本曝光时间、顺序,过滤负样本
  • 不平衡样本策略调整:离线A/B测试正负样本比例,择优调整

模型

  • 一般使用stacking模型堆叠集成
  • 参见ml_models/model_enhancement/ensemble_stacking

基学习器

  • GBDT:各树、各叶子节点对应一维特征

    • 适合低维稠密通用特征,对输入特征分布没有要求
  • DNN

    • 适合普通稠密特征、embedding特征
    • 能抽取有良好分布数据的深层次特征,提高模型准确性、 泛化能力

元学习器

  • LR

    • 适合低维稀疏特征,可对所有特征离散化以引入非线性
  • FM

    • 适合低维稀疏特征
    • LR基础上自动组合二阶交叉项
  • Linear:训练模型、对训练结果线性加权

冷启动、EE

冷启动

Matching

  • 冷启动用户召回

    • 使用imbd算法计算资源得分,根据不同时间周期进行得分 融合、并ab测试,选取最优时间周期组合
    • 按照imdb得分倒排,生成热点召回数据
  • 冷启动资源召回

    • 基于资源库,统计各资源点击、播放率,按一定比例召回 第点击、播放率物品

Ranking

  • 通常使用强化学习算法
  • Thompson Sampling
  • UCB算法
  • Epsilon-Greedy算法
  • 朴素Bandit算法
  • LinUCB算法:较UCB算法加入特征信息
  • COFIBA算法:Bandit算法结合协同过滤

Exploration and Exploitation Tradeoff

Matching

  • 调整不同召回渠道的配比方式保证多样性

Recommendation System

推荐系统架构

recommendation_system_procedure

Matching

召回算法Match:包含多个渠道的召回模型,希望从资源库中选取 多样性偏好内容,缩小排序目标

  • 协同过滤
  • 主题模型
  • 内容召回
  • 热点召回

Ranking

排序:对多个召回渠道内容打分、排序、选出最优的少量结果

  • 若召回结果仍包含大量数据,可以考虑分为两个阶段
    • 粗排:进一步剔除召回结果
    • 精排:对粗排结果再次打分、排序,得到最终推荐结果

Collaborative Filtering-Based Recommendation

基于协同过滤推荐算法:推荐算法中主流

  • 模型一般为n个物品、m个用户的表

    • 只有部分用户、物品之间有评分数据
    • 要用已有部分稀疏数据预测空白物品、数据之间评分关系, 推荐高评分物品
  • 无需太多特定领域的知识,可通过基于统计的机器学习算法得到 较好推荐效果,可以分为

    • 基于用户
    • 基于物品
    • 基于模型
  • 现在指推荐算法一般指协同过滤,其他基于内容、规则、人口 统计信息等都被包含/忽略

User-based

基于用户协同过滤:主要考虑用户之间相似度,找出相似用户、相似 用户喜欢的物品,预测目标用户对对应物品的评分,推荐高评分物品

  • 特点:(相较于Item-Based)推荐更社会化

    • 反映用户所在小型兴趣群体中物品热门程度
    • 可帮助用户找到新类别、惊喜物品
  • 适合场景

    • 用户数量较少、变化慢场合,否则更新、计算用户相似度矩阵 代价大
    • 时效性强、用户个性化兴趣不明显领域
    • 无需给出推荐解释
    • 示例
      • 新闻推荐:注重热门、时效、item更新快
      • 热点视频推荐
  • 方法

    • 基于规则:大众型推荐方法,如:最多用户点击、浏览
    • 基于人口统计信息:简单根据用户基本信息发现用户相关 程度、推荐
    • 混合推荐
      • 结合多个推荐算法,集成算法推荐结果
      • 复杂度高

Item-Based Collaborative Filtering

基于项目协同过滤:考虑物品和物品之间的相似度,找到目标用户 对某些物品的评分,预测用户对相似度高的类似物品评分,推荐高 评分相似物品

  • 特点:(相较于User-Based)推荐更个性化

    • 反映用户自身的兴趣传承
    • 可帮助用户深入挖掘自身兴趣
    • 准确度一般
    • 推荐多样性弱,难以带来惊喜
  • 适合场景

    • 物品数量较少、变化慢场合,否则更新、计算物品相似度 矩阵代价大
    • 长尾物品丰富、个性化需求不明显
    • 需要向用户给出推荐理由
    • 示例
      • 电商
      • 电影:兴趣持久、更个性化

Model-Based Collaborative Filtering

基于模型:目前最主流的协同过滤类型

  • 关联算法:找出用户-物品数据里频繁出现的项集,作频繁集 挖掘,推荐频繁集、序列中其他物品

    • Apriori
    • FPTree
    • PrefixSpan
  • 聚类算法:按照用户、物品基于一定距离度量聚类,推荐高评分 同类物品、同类人群 (类似于基于用户、物品协同过滤)

    • K-means
    • BIRCH
    • DBSCAN
    • Spectral Clustering
  • 分类算法:使用分类模型划分物品

    • 逻辑回归
    • 朴素贝叶斯
  • 回归算法:使用回归模型给物品预测打分,较分类更平滑

    • 线性回归
    • 决策树
    • SVM
  • 矩阵分解:对用户-物品评分矩阵进行分解

    • FunkSVD
    • BiasSVD
    • SVD++
  • 还有基于图模型、神经网络等新模型
  • 还有依赖于自然语言处理NLP,通过挖掘文本内容特征,得到 用户的偏好,进而做推荐,同样可以找到用户独特的小众喜好

文本预处理

文本预处理

  • 去除噪声文档、文档中垃圾数据
  • 停用词去除
  • 词根还原(英文)
  • 分词(中文)
  • 词性标注
  • 短语识别
  • 词频统计

汉语分词

分词:添加合适的显性词语边界标志,使所形成的词串反映句子本意

  • 分词是正确处理中文信息的基础

    • 文本基于单字
    • 书面表达方式以汉字作为最小单位
    • 词之间没有显性界限标志
  • 用单个汉字作特征,不考虑词语含义,直接利用汉字在文本中 出现的统计特性对文本进行划分

    • 直观明了
    • 操作简单
    • 对西语文本划分非常容易(使用空格划分)
  • 使用词作为特征

    • 词是中文语义的最小信息单位,可以更好的反映句子中信息
    • 分析难度更高,中文文本中词之间没有分隔标记,正确分词 是关键

分词方法

  • 基于词典

    • FMM:正向最大匹配分词
    • BMM:逆向最大匹配分词
    • BM法:双向扫描法
    • 逐词遍历
  • 基于统计模型

    • N-最短路径
    • HMM
    • N元语法
    • 由字构词的汉语分词方法

分词难点

歧义切分

  • 分词规范

    • 分词单位
      • 二字、三字以及结合紧密、使用稳定的
      • 四字成语
      • 四字词或结合紧密、使用稳定的四字词组
    • 五字、五字以上谚语、格言等,分开后如不违背原有组合 意义,应切分
  • 歧义切分

    • 交集型切分歧义
    • 组合型切分歧义

未登录词识别

  • 词表词:记录在词表中的词
  • 未登录词:词表中没有的词、或已有训练语料中未曾出现词 (此时也称为out of vocabulary
  • 真实文本切分中,未登录词总数大约9成是专有名词,其余为 新词

  • 未登录词对分词精度影响是歧义词的10倍

  • 命名实体识别:实体名词、专业名词

    • 界定规则不存在太大分歧、构成形式有一定规律
    • 在文本中只占8.7%,引起分词错误率59.2%

词性标注

词性标注:在给定句子中判定每个词的语法范畴,确定词性并加以 标注的过程

  • POS作为特征可以更好的识别词语之间关系

    • 词性标注计数为phrase chunking词组组块的界定、 entities and relationship实体与关系的识别打下良好 基础,有利于深入探索文本语义信息

    • 词组的形式提高了特征向量的语义含量,使得向量更稀疏

  • 难点

    • 汉语缺乏词形态变化
    • 常用词兼类现象严重:占11%
    • 研究者主观原因:不同语料库有不同规定、划分方法
  • part of speechPOS,词性

Forward Maximum Matching Method

FMM:正向最大匹配分词

  • 步骤

    • 记词典中最长此表包含汉字数量为M
    • 从材料中选取前$m = M$个汉字去作为匹配字段,查找分词 词典
      • 若存在匹配词,则将其切分出
      • 否则$m = m - 1$,重复
    • 重复直至材料分词完毕
  • 特点

    • 对交叉歧义、组合歧义没有解决办法
    • 错误切分率为$\frac 1 {169}$

Backward Maximum Matching Method

BMM:逆向最大匹配分词

  • 步骤:类似FMM,仅从材料/句子末尾开始处理

  • 特点

    • 错误切分率$\frac 1 {245}$,较FMM更有效

Bi-direction Matching Method

BM法:双向扫描法

  • 步骤:比较FMM、BMM法切分结果,决定正确切分

  • 特点

    • 可以识别分词中交叉语义

N-最短路径

  • 思想

    • 考虑待切分字串$S=c_1 c_2 \cdots c_n$,其中$c_i$为 单个字、$n$为串长

    • 建立节点数为$n+1$的切分有向无环图,各节点编号为 $V_0, V_1, \cdots, V_n$

      • 相邻节点间存在边
      • 若$w=ci c{i+1} \cdots cj$是一个词,则节点 $v{i-1}, v_j$直接存在边
      • 所有边距离均为1
    • 求有图无环图中最短路径

特点

  • 算法时间复杂度为$O(nNK)$

    • $n$:字串长度
    • $N$:最短路径数目
    • $k$:某个字作为词末端字的平均次数

改进—考虑噪声

基于统计信息的粗分模型

  • 考虑词串$W$经过信道传输,由于噪声干扰丢失词界切分标志, 到输出端为字串$C$

  • N-最短路径词语粗分模型可以改进为:求N个候选切分$W$,使得 概率$P(W|C)$为前N个最大值

    • $P(C)$:字串概率,常数
    • $P(C|W)$:仅有
  • 采用一元统计模型,设$W=w_1w_2\cdots W_m$是字串 $S=c_1c_2\cdots c_n$的切分结果,则其切分概率为

    • $P(w_i)$:词$w_i$出现概率,在大规模预料训练的基础上 通过极大似然方法得到
  • 则$-lnP(w_i)$可看作是词$w_i$在切分有向无环图中对应距离, 改进N-最短路径方法

由字构词

假设、背景

  • 思想:将分词过程看作字分类问题,认为每个字在构造特定词语 时,占据确定的位置
  • 中文词一般不超过4个字,字位数量很小
    • 首部B
    • 词中M
    • 词尾E
    • 单独成词S
  • 部分汉字按一定方式分布,有规律
  • 利用相对固定的字推断相对不定的字的位置问题
  • 虽然无法将所有词列入词典,但字基本稳定

步骤

  • 对所有字根据预定义的特征进行词位特征学习,获得概率 模型
  • 在带待分字串上根据字与字之间的结合紧密程度得到词位的分类 结果
  • 根据词位定义直接获得最终分词结果

Productivity

能产度:词$c_i$在词位$t_j$的能产度定义为

  • $T = {B, B_2, B_3, M, E, S}$
  • 主词位:给定字在其上能产度高于0.5的词位

    |标记|B|B2|B3|M|E|S|总字量| |——-|——-|——-|——-|——-|——-|——-|——-| |字量|1634|156|27|33|1438|632|3920| |百分比|31.74|3.03|0.52|0.64|27.94|12.28|76.16|

    • MSRA2005语料库中有主词位的字量分布
  • 自由字:没有主词位的字

    • 自由字是基于词位分类的分词操作得以有效进行的的基础 之一
  • 字:不仅限于汉字,包括标点、外文字母、注音符号、数字等 任何可能文字符号

优势

  • 能平衡词表词、未登录词
  • 简化分词系统设计
    • 无需强调词表词信息
    • 无需设置特定未登录词识别模块

分词评价指标

  • 正确率
  • 召回率
  • F-测度值

Vector Space Model

向量空间模型:自然语言处理常用模型

  • document:文档,句子、段落、整篇文章
  • term/feature:词根、词、短语、其他
  • weight:项的权重,每个特征项在文档中重要程度

相似度比较

  • 内积

  • Cosine相似度

权重

  • 布尔权重:$bw_{t,d} = {0, 1}$
  • TF:绝对词频,$TF{t,d} = \frac {n{t,d}} {n_d}$
  • IDF:倒排文档频度,$IDF_{t,d} = log \frac M {m_t}$
  • TF-IDF:$TF-IDF{t,d} = TF{t,d} * IDF_{t,d}$
  • TF-IWF:$TFIWF{t,d}= TF{t,d} log \frac {\sum{t=1}^T \sum{d=1}^N n{t,d}} {\sum{t=1} n{t,d}}$
  • $t_{t,d}$:文档$d$中出现特征$t$的次数
  • $t_d$:文档$d$中出现总词数
  • $m_t$:训练集中出现特征$t$文档数
  • $M$:训练集中文档总数
  • $K$:特征总数量

特征加权

  • 特征加权主要包括三个部分(层次)

    • 局部加权:使用词语在文档中的统计量
    • 全局加权:词语在整个数据集中的统计量
    • 标准化
  • 一般化特征加权表达式

    • $L_d(w)$:词$w$在文档$d$中的局部权重
    • $G(w)$:词$w$在文档集合中的全局权重
    • $N_d$:文档d的标准化因子

Document Frequency

DF:文档频率,文本数据中包含某词条的文档数目

  • 通过文档频率进行特征选择:按文档频率大小对词条进行排序

    • 将DF小于某阈值的词删除

      • 稀有词项全局影响力不大
      • 文档若有稀有词向,通常也会有常见词项
      • 和通常信息获取观念抵触:稀有更有代表性
    • 将DF大于某阈值的词删除

      • 太频繁词词项没有区分度
  • 容易实现、可扩展性好

其他指标

  • 信息增益/互信息

  • 卡方统计量

Latent Semantic Analysis

LSA:潜在语义分析

  • 文本分析中常用的降维技术

    • 特征重构方法
    • 很好解决了同义词、一词多义等现象给文本分析造成的困难
  • 理论依据、假设

    • 认为有潜在语义结构隐含在文档中词语的上下文使用模式中
    • 而文档词频共现矩阵在一定程度可以反映词和不同主题之间 关系
  • 以文档词频矩阵为基础进行分析

    • 得到向量空间模型中文档、词的高维表示
    • 并通过投影形成文档、词在潜在语义空间中的相对稠密的 低维表示,缩小问题规模
    • 通过这种低维表示解释出“文档-语义-词语”之间的联系
  • 数学描述

    • LSA将每个文本视为以词语/特征为维度的空间的点,包含 语义的文本出现在空间中分布服从某种语义结构
    • LSA将每个词视为以文档为维度的空间中点
    • 文档由词语构成,词语需要放在文档中理解,体现词语和 文档之间的双重概率关系

应用SVD分解

  • 词频共现矩阵$X=(x_{d,t})$:文档、词语的共现频率矩阵

    • 其中每行代表文档向量
    • 每列代表词语向量
    • 元素$x_{d,t}$表示文档$d$中词$t$出现的频率
  • 对词频共现矩阵$X$进行SVD分解得到$X=U \Sigma V^T$

  • 仅保留$\Sigma$中满足阈值要求的较大的前$r$特征值, 其余置为0,得到 $\tilde X = \tilde U \tilde \Sigma \tilde V^T$,达到信息 过滤、去除噪声的目的

    • $A = \tilde X$:矩阵特征分解后的文档词频矩阵近似
    • $T = \tilde U$:文档和潜在语义的关系矩阵近似
    • $S = \tilde V$:词语和潜在语义的关系矩阵近似
    • $D = \tilde \Sigma$:各潜在语义的重要程度

说明

  • 从数据压缩角度:近似矩阵是秩为$K$的前提下,矩阵$X$的最小 二乘意义下最佳近似

  • r值过大会增加运算量,一般选择K使得贡献率满足

    • $\theta$:阈值
    • $K$:原始词频共现矩阵秩
  • LSA缺点

    • SVD的向量元素有正、有负,性质难以解释
    • SVD的实际意义不够明确,难以控制词义据类的效果
    • 涉及高维矩阵运算

相似关系计算

  • 潜在语义空间中存在:词-词、文本-文本、词-文本3种关系, 可以通过近似矩阵$T, S, D$计算

  • 比较词汇两两相似度:“正向乘法”

  • 比较文本两两相似度:“逆向乘法”

  • 词汇、文本两两相似度:就是原始矩阵$X$的近似矩阵本身$A$