本文中所用的所有特征都是离散特征的。 实际上大多数功能都是 标识符(广告客户的ID,发布商的等等)。 而真正重要的功能也可以通过离散化做出明确的分类。
编码分类特征的标准方法是使用几个二进制特征,称为统计中的虚拟编码或机器学习中的1-of-c编码。如果特征可以取c值,则引入c二进制特征,第i个是指标函数的第i个值。 例如,一个以5的第二个值的特征可能的值被编码为(0,1,0,0,0)
如果我们有F特征,并且第f个功能可以采用$$c_f$$值,则该编码将会导致
维度