7. 评价指标

7.1. 常用指标

当评估机器学习模型或信息检索系统的性能时，常用的评价指标包括：

AUC（Area Under the Curve）
分类器把一个随机抽取的正例排在一个随机抽取的负例之前的概率。
GAUC（Group Area Under the Curve）
以 User 为 Group，计算每个 User 样本的 AUC，然后根据用户的样本量做加权平均（需要剔除只有正样本/负样本的用户）。

\[\mathrm{GAUC} = \frac{\sum_{k=1}^{K} n_k \times \mathrm{AUC}_k}{\sum_{k=1}^{K} n_k}\]
MRR（Mean Reciprocal Rank）
衡量相关 Item 的倒数排名。

\[\mathrm{MRR} = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{rank_i}\]
MAP（Mean Average Precision）
平均精度均值，针对每个 User/Query 计算 AP 再求均值。

\[\mathrm{MAP} = \frac{1}{U} \sum_{u=1}^{U} \frac{ \sum_{i=1} P(u,i) \times rel_{u,i} }{R_u}\]
NDCG（Normalized Discounted Cumulative Gain）
归一化折损累计增益，思想：高相关性的结果比一般相关性的结果更影响最终的指标得分；有高相关性的结果出现在更靠前的位置的时候，指标会越高。

\[\begin{split}\mathrm{DCG}_p & = \sum_{i=1}^{p} \frac{2^{rel_i} - 1}{\log_2(rank_i + 1)} \\ \mathrm{IDCG}_p & = \sum_{i=1}^{\left\Vert REL_p \right\Vert} \frac{2^{rel_i} - 1}{\log_2(rank_i + 1)} \\ \mathrm{NDCG}_p & = \frac{\mathrm{DCG}_p}{\mathrm{IDCG}_p}\end{split}\]

此外，还会计算 Q 值来评价预估的高低估情况：

\[Q_{ctr} = \frac{\sum_i \mathrm{pCTR}_i}{\sum_i \mathrm{isClick}_i}\]

离线评估的目的在于快速定位问题，快速排除不可行的思路，为线上评估找到靠谱的候选者。

在分析线上效果时，可能需要分场景、类目等计算细分指标。

实验模型线下评估时拟合的是 Base 模型跑出来的数据分布，到上线后训练样本里既有 Base 模型跑出来样本也有实验模型跑出来的样本，且占比在不断变化，相当于数据分布在变。

有效的经验：

对无偏数据进行上采样，比如随机流量/探索流量产生的样本，或者新模型产生的样本。
Base 模型和新模型融合：模型预估分数 \(p_{new}\) 和 Base 模型预估分数 \(p_{base}\) 直接在线上做线性融合；刚上线的时候 \(\alpha\) 选取比较小的值，随着迭代 \(\alpha\) 慢慢放大。

\[p = \alpha \cdot p_{new} + (1 - \alpha) \cdot p_{base}\]

关注系统链路上下游的变化，收益可能被其他模块拿走了。

大促/活动时间节点的数据分布会发生较大变化。

https://www.deeplearn.me/4237.html

https://www.zhihu.com/question/517418281/answer/2355367968

https://zhuanlan.zhihu.com/p/640387297

https://zhuanlan.zhihu.com/p/82584437