我们在本节中量化由于两个值进入同一个桶中的冲突而造成的对数似然性下降 。 考虑第一个值观察$$n_1$$次,全部为负,第二个值,$$n_2$$次,都是正的,而且只有这个特征,没有其他特征。 如果没有碰撞, 该值的权重将为$$x = y$$(假设没有正则化)和另一个为$$-\propto$$。 这将导致所有的对数似然率为零 。

当有碰撞时,负对数似然是:

对数似然 使得权重都为0,除了存在冲突且值为$$log(n_2/n_1)$$的那个。 只有当$$n_1$$和$$n_2$$都很大时,这个对数似然性很大。这种情况可以

认为是最坏的情况,因为:

(1)这两个值是可预测的;如果这两个值不可预测的, 它们的冲突不会影响对数似然(在所有情况下为零重量);

(2)特征没有冗余:如果系统包含冗余特征,一个值的冲突可以通过另一个值来缓解。

关于最后一点,可以通过利用多个来缓解散列函数的冲突问题 ,与Bloom过滤器一样的思想[Bloom 1970]。然而 实际上这并不能改善结果(见5.7节)。 本节仅提供了一个初步的冲突分析。鉴于最近 对分类变量的散列兴趣,我们希望在不久的将来可以有更彻底 对学习系统内冲突影响的理论分析。

results matching ""

    No results matching ""