文本分类技术研究+文献综述(3)

T:D C.                            (2.1)
这里，T把一个文档实例映射为某一个类。对D中的文档d，T(d)是已知的。通过有指导地对训练文档集的学习，可以找到一个近似于T的模型:H
H:D C.                            (2.2)
对于一个新文档，H 表示对的分类结果。一个分类系统的建立或者说分类学习的目的就是寻找一个和T最相近似的H。即给定一个评估函数f，学习的目标应使T和H满足:
                    (2.3)
2．1 文本分类系统

图 2.1 文本分类系统结构
文本分类过程是一个相对复杂的过程。并且随着分类算法的不同其结构也有相应的改变。文本分类一般包括文本的模型建立、文本的特征表示、特征选取、分类器的选择、数据的训练、分类结果的评价与反馈等过程，流程图如图2.1。
2．2 文本预处理
文本分类算法处理的数据对象是文本。文本作为人类语言的一种表现形式，它不具有严格的逻辑结构，由人类的习惯用语即成语言。而正是这种非结构性，使得我们必须对文本进行预处理，把它转化成计算机可以识别的，且具有一定结构的数据形式。文本的预处理包括：文本的表示、特征提取、特征项的权值计算，下面分别进行介绍。
2.2.1 文本表示
由于分本分类算法只能直接处理结构化的数据，文本作为非结构化数据需要对其进行结构化处理，把无结构化的文本转化为结构化描述。文本表示是指用文本的特征信息集合来代表原来的文本。文本的特征是文本的元数据，分为描述性特征（例如文本的名称，大小，时间，类型等）和语义性特征（如文本的标题，内容等）。现有文本分类技术的前提假设是特征和文档类别概念密切相关。在这一假设下，通常有两种文档表示模型，即布尔模型和向量空间模型。
向量空间模型中，一篇文档表示为特征空间中的一个向量，这个向量也称为文档向量。文档向量中每一文对应于文档中的一个特征，它的权值为该向量文对应的特征在文档库中的权值，一般采用TFIDF方法计算。两篇文档的相似度，则通过计算对应文档向量的夹角余弦得到。
布尔模型可以看作是向量模型的一种特例，根据特征是否在文档中出现，特征的权值只能取1或O。许多时候，使用二值特征的分类效果结果并不比考虑特征频率的差。
决策树方法、关联规则方法和Boosting方法就是基于布尔模型；而KNN法、SVM方法、LLSF是基于向量模型。Byaes推理网分类方法，则考虑了文档中词之间的依赖关系［4］。
2.2.2 文本特征选择
根据John Pieree的理论，用来表示文本的特征理论上应具有如下特点:
a) 出现频率适中
b) 数量上尽量少
c) 噪音少
d) 冗余少
e) 与其所属类别语义相关
f) 含义尽量明确
就文本来说，最方便采用的特征就是词或短语。词或短语是组成文本的而文本所具有的词和短语相对多，对于几篇文档来时数量还可以接受，但是我们所处理的是大规模的文本，其词和短语的数量就可想而知是多么的大了。如果都作为特征项来处理，无疑会浪费大量的时间和空间，因此必须对这些词语进行筛选，这样做的目的只要有以下两个方面：一是为了提高程序的运行效率；二是所有的词对文档分类的作用是不同的，对于在所有类中出现频率都较大的词和短语对分类贡献就较少，而那些只在某类中出现频率较大的词和短语对分类的贡献就较大，因此我们需要去除那些对分类贡献较小而保留贡献较大的词或短语［4］。文本分类技术研究+文献综述(3):http://www.751com.cn/tongxin/lunwen_2955.html