由于训练数据很大(每天大约需要9次曝光),所以不可能考虑所有的曝光。另一方面,训练数据
点击率低于1%是非常不平衡的。 由于这些原因,我们需要对负样本以$$r (r<<1)$$进行采样。
该模型针对此次抽样进行更正。 采样后的概率分布为Pr。 然后:
上述方程依赖于条件分布的条件,受采样的影响:$$Pr(x \mid y) = Pr'(x \mid y)$$。 结合方程(1)和(6),证明了log odd ratio被$$log r$$偏移了。 因此,训练后,必须通过添加$$log r$$来更正模型的截距。 类的不平衡 的逻辑回归在文献[King and Zeng 2001; Owen 2007]中描述。
并不是调整截距,而是注重于负样本采样的权重1/r,以调整子采样。 初步 使用该方法,实验结果具有较低的测试精度。 可能的解释是 泛化误差范围因为权重变得越来越差[Cortes et al. 2010]。