文本分类技术研究+文献综述(4)

对于如何选择文本特征的问题，存在多种方法。大体上可以分成两类：基于信息论和统计分析的方法，以及基于字典的方法。基于字典的方法准确性较高，但字典往往是领域相关的，而且其建立过程需要大量的时间精力，因此大多数现有的特征选择算法都是基于信息论和统计分析的。特征选择的具体步骤如下：
a) 从训练文档库中提取得所有特征项，构成文档特征集合F；
b) 对集合F中的每一项用下列某一种方法进行打分，然后按分值由高到低进行排序；
c) 假设需要选取N个文档分类属性，则从F中选取分值最高的N个项，构成最终的分类属性集Fs。Fs将用于文档分类的训练与测试。
特征选择方法有如下几种：
a) 信息增量(Information Gain)
信息增量表示文档中包含某一特征值时文档类的平均信息量。它定义为某一特征在文档中出现前后的信息熵之差。假定c为文档类变量，C为文档类的集合，d为文档，f为特征(以下各节同此)。对于特征f，其信息增量记为IG(f)，计算公式如下：
       (2.4)
其中，表示一篇文档属于类别C的概率，表示特征项f在一篇文档内出现的概率，表示特征项f不在一篇文档内出现的概率，表示特征项f在属于类别C的文档内出现的概率，表示特征项f不在属于类别C的文档内出现的概率。值大则被提取的可能性大，即特征项按照值排序。
b) 互信息(Mutual Information)
互信息是用于表征两个变量间相关性的。对于文档类别c和特征f，其互信息为
MI(c，f)，计算公式如下：
                               (2.5)
显然，当f独立于c时，MI(c，f)为0。在应用时一般取平均值：
                              (2.6)
表示在训练集中即包含特征项f又属于类别c的文本出现的概率，表示训练集中属于类别次c的文本的概率，表示包含特征项f的文本在训练集中出现的概率。
c) 统计
统计也是用于表征两个变量问的相关性，但它比互信息更强，因为它同时考虑了特征存在与不存在时的情况。对于文档类别c和特征f，其统计的计算公式如下：
                 (2.7)
当c与f相互独立时，为O。和互信息类似，取平均值：
                                    (2.8)
d) 交叉熵(Cross Entropy)
交叉熵和信息增量相似，不同之处在于信息增量中同时考虑到了特征在文本中发生与不发生时的两种情况，而交叉熵只考虑特征在文本中发生一种情况。对于特征f，其交叉熵为，计算公式如下：
                       (2.9)
在只考虑单个类的时候，则有：
                        (2.10)
e) Fisher判别式
Fisher判别式是一种基于统计的方法，表示某一特征在类间分布和类内分布之比：
上面，n(d，f)和n(d)分别表示特征f在文档d中的频数和文档d中总的特征频数［4］。
2.2.3 文本加权方法文本分类技术研究+文献综述(4):http://www.751com.cn/tongxin/lunwen_2955.html