机器学习-模型评估与选择

模型评估与选择

模型评估方法

书后习题

经验误差和泛化误差

定义

解决过拟合现象：正则化

性能度量

基本概念

P-R曲线和ROC曲线

实例

知乎上有一个案例对这些曲线描述的比较形象。

TPR真阳性，FPR假阳性

一个表现平平的分类器(表现是指分类标准能否将两种样本有效的分开，而threshold是指划分标准更倾向于查全率或准确率)

一个更好一些的分类器

F1计算

用途

基于P-R曲线可以大致评判机器学习模型的好坏

ROC也是如此。

从定义可知， AUC 可通过对 ROC 曲线下各部分的面积求和而得.

形式化地看， AUC 考虑的是样本预测的排序质量。

习题：若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高

二者是不同维度的指标。当然在达到BEP的条件时(P=R)，F1的值和BEP相等。

ROC代价曲线

参考知乎答案

首先, 横坐标是 $\mathrm{P}(+)$, 由公式3可以知道, 当 $\mathrm{P}(+)=0$ 时, ${c o s t}_{n o r m}=\mathrm{FPR}$; 当 $\mathrm{P}(+)=1$ 时, $\operatorname{cost}_{n o r m}=\mathrm{FNR}_{\circ}$ 直白含义：当我用来检测模型好坏的样本全是负例(即 $(+)=0 $) ，那我模型产生的错误就只有负例被错误的预测为正例这一种情况, 就是 $(0, F P R)$ 。同样, 当我用来检测模型好坏的样本全都是正例（即 $(+)=1 $ )，那我模型产生的错误就只有正例被错误的预测为负例的情况这一种情况，就是 $(1, \mathrm{FNR})$ 两个连线中间的情况, 用来检测模型的样本有正例也有负例的时候, 也就是 $P(+)=0 . x$, 这时候 $\operatorname{cost}_{n o r m}$ 的取值就会同时受到FPR和FNR的影响。

很像高中化学读图题的定性分析：

就像做核酸”粉饰太平“一样( \[ P(+)=\frac{p \cdot \cos _{0 \mid 1}}{p \cdot \operatorname{cost}_{0 \mid 1}+(1-p) \cdot \operatorname{cost}_{1 \mid 0}} \] $\operatorname{cost}_{0 \mid 1}$ 表示: 实际为正类, 而错判成负类的代价, $\operatorname{cost}_{1 \mid 0}$ 表示: 实际为负类, 而错判成正类类Q 的代价。举例说明, 当我们认为, 正例错判为负例的代价与负例错判为正例的代价相同时, $P^1(+)=p$ 当我们认为把正类判定为负类会造成更大的损失时(比如假设核酸检测瞒报比误报代价更大), 此时 $\operatorname{cost}_{1 \mid 0}>;\cos t_{0 \mid 1}$, 带入正例代价公式得 $P^2(+)$, 这时候就有 $P^2(+)>;P^1(+)$ 。对应到ROC代价图, 正例概率 $P(+)$ 就会往左移动, 对应的阈值就会减小, 模型对负类的判断就会更谨慎(比如下调CT值)。