文本分类技术研究+文献综述(5)

    根据香农的信息学理论，如果特征项在所有的文档中出现的频率越高，那么它所包含的信息熵就越少；而如果特征项在较少的文档中出现，且其出现频率较高那么它的信息熵就越高。给每个特征项赋上权值时总是希望文本中越重要的词赋上较大的权值，以前是由专家或者用户根据自身的经验或者所掌握的领域知识人为地赋予权值，很明显这种方法效率太低，且具有一定的随意性，很难适应大规模的文本处理。发展到今天，加权方法发生了巨大的改变，比如利用统计的方法，也就是利用文本的统计信息来计算特征项的权值。目前较主流加权方法有TFIDF 方法。在实验中被广泛采用的权值计算公式如下：
                        (2.14)
N 为训练文本数，表示训练文本集合中出现词条的文本数，表示特征出现的频率。它是一种文档词集的表示法，所有的词从文档中取出来而不考虑词间的次序和文本的结构。TFIDF 的另一种加权法其应用也相当广泛，可加权多种文档词集：
                    (2.15)
   为特征项t在文本中权值，为特征项t在文档中的频率，N 为训练文本的总数，为训练文本集中出现t 的总数。
2．3 几种分类方法
文本分类算法实质上就是建立文本特征到类别的映射关系，不同的算法在训练和测试阶段都有着显著的区别。从方法学的角度划分，文本分类的方法大致上有三种：基于统计的分类方法，人工神经网络和基于规则的方法。
2.3.1 基于统计的算法
a) 朴素贝叶斯方法
    这种方法根据一个概率确定文档d的分类情况：，即对于文档d来说类别的条件概率。这个概率越高，d越有可能属于文档类。
根据贝叶斯公式：           (2.16)
因此：其中，     (2.17)
对于一定的训练文档集，假设它能够真实反映文本类别的分布，则很容易获得一个类别的概率：，问题集中于的计算。
如果我们假设文本的特征相互独立，，其中是文档d中的特征词，这种模型称Binary Independence Model。还有一些不同的计算模型，如最大似然模型(Maximum Likelihood Model)、多项式模型(Multinomial Model)、泊松模型(Poison Model)等［5］。
b) KNN(K nearest neighbors)方法
KNN的训练过程保存每一个训练文档向量和它所属的类别，分类时，在向量空间中找到待分类文档向量的K个最近邻。在此基础上，给每一个文档类打分，分值为K个训练文档中属于该类的文档和测试文档之间的相似度之和。然后按照分值对文档类排序，若最高分值大于一定的阈值，则可以确定它为待分类文档所属的类别。
文档d属于一个类别的分值为：
相似度有两种算法：一时求向量几何距离，二是求向量夹角的余弦值［6］。
c) 类中心向量法(Rocchio方法)
这种方法用训练文档向量求出每一个类别的中心向量，来代表整个类别。在分类阶段，对于某一给定的文档d，计算文档向量和每个类别中心向量的相似度，然后按相似度进行从大到小排序。相似度最大值所对应的类别，就是文档的所属类别。如果希望文档可以属于多个类别，可以设定一个阙值，文档属于相似度超过阈值的所有类。中心向量的计算公式如下，其中是类f的中心向量的莉文。初始时，中心向量的每一文都为0，然后，对训练文本进行批处理，每次都对各个中心向量产生影响。文本分类技术研究+文献综述(5):http://www.751com.cn/tongxin/lunwen_2955.html