处理一个非常大训练集的最简单的方法是对其进行二次采样。有时
可以通过较小的训练集实现类似的测试错误，并且不需要
大规模学习。
有两个不同级别的子采样可以进行：如第4.7节所讨论的二次抽样
，或者对整个数据集进行二次采样。两个都
加快训练，但可能会导致一些性能下降，如图所示。因此，子采样率的选择因此是取决于计算复杂性和准确性之间的权衡。

对负样本进行抽样。在这个实验中，我们保留所有的正样本和对负样本进行采样。图4显示了采样率对模型效果的影响。

我们从试验中发现，1％的子样本率是比较好地权衡模型训练时间和预测准确性。除非另有说明，否则

在本文的其余部分都是子采样1％。

整体二次抽样。在这个实验中，整个数据被以1％和10％的比率二次采样。表II中的结果表明，子采样后的精度有所下降。

总之，即使在某种程度上对数据进行子采样也是很好的 - 尤其是对负样本 - 数据越多越好，这就促使了分布式的使用，将在第8节中介绍学习系统。

5.3 采样的影响

results matching ""

No results matching ""