单个特征。我们在本节中画出了Tikhonov正则化和拉普拉斯平滑之间的联系。
假设我们的模型包含单个离散特征。我们来想一下该特征的第j个值。
$$I_j = {i, \mid x_i = j}$$ 当没有正则化时($$\lambda = 0$$),w近似于:
这导致预测等于$$k / m$$,即经验概率P$$P (y=1 \mid x = x_j)$$。 我们重新得出逻辑损失产生了输出概率的Fisher一致估计 。
当$$m$$很小时,这种经验概率可能有很大的变化。这就是 为什么人们经常使用Beta,然后才能获得较低的方差估计的偏差:
该估计器被称为拉普拉斯估计器。
方程(7)中的正则化者是平滑概率估计0.5的另一种方法 。 这两种方法一般不相等,但是是相关的。 下列
命题表明平滑渐近相似。
分层特征。现在考虑两个具有层次结构的特征的情况 ,如广告主和广告系列。 假设我们有很多给定广告主的训练数据,但该广告主的广告系列来说很少。 由于正规化,该广告的权重将几乎为零。而 该广告系列的预测点击率将主要取决于广告主的权重。这个 类似于上一节的情况,除了输出概率没有向0.5平滑,但是朝着父特征给出的输出概率。
这种分层平滑在语言模型中很常见的[Chen and Goodman 1999]。 还有[Gelman and Hill 2006]评论多层次的层次 模型和[Agarwal et al. 2010]用于展示广告中的层次平滑。 正则化的逻辑回归方法的优点是它隐含地 执行分层平滑:不像上面提到的,我们不需要指定特征层次结构。