我们在本节中讨论了分类变量的特征选择问题。

让我们首先在上下文中区分两种不同分类变量:

  • 特征选择 目标是选择一些特征(如年龄,性别或广告商)。 这就是这个部分的目的。

  • 特征值选择 目标是减少一些在训练集中观察到的最不重要的特征值的参数。 第5.2节比较 为此目的的各种方案。

L1正则化是减少权重的有效方式 ,是特征值选择的一个方法。但并不一定会压制所有 给定特征的值,因此不能用于特征选择。l1/l2正则化或group lasso [Meier et al. 2008]。 然而,group lasso在计算上十分昂贵。我们在本节介绍一个更好的选择。

对于相互信息和其他过滤方法进行特征选择[Guyon and Elisseeff 2003],我们正在寻找一个衡量一个特征有效用于二分类的标准 。但是,目标是在已经存在一个可用的特征集,即我们要估计添加到特征时的其他特征已经存在的分类器[Koepke and Bilenko 2012]。

results matching ""

    No results matching ""