处理一个非常大训练集的最简单的方法是对其进行二次采样。 有时
可以通过较小的训练集实现类似的测试错误,并且不需要
大规模学习。
有两个不同级别的子采样可以进行:如第4.7节所讨论的二次抽样
,或者对整个数据集进行二次采样。 两个都
加快训练,但可能会导致一些性能下降,如图所示。因此,子采样率的选择因此是取决于计算复杂性和准确性之间的权衡
。
对负样本进行抽样。 在这个实验中,我们保留所有的正样本和对负样本进行采样。 图4显示了采样率对模型效果的影响。
我们从试验中发现,1%的子样本率是比较好地权衡模型训练时间和预测准确性。 除非另有说明,否则
在本文的其余部分都是子采样1%。
整体二次抽样。 在这个实验中,整个数据被以1%和10%的比率二次采样 。表II中的结果表明,子采样后的精度有所下降。
总之,即使在某种程度上对数据进行子采样也是很好的 - 尤其是对负样本 - 数据越多越好,这就促使了分布式的使用 ,将在第8节中介绍学习系统。