不同领域中文评论信息的情感分类效果比较研究(9)

（5）TF*RF

Lan等提出了一种新的权重计算方法，即TF*RF（其中RF(relevance frequency)意为相关频率），并通过实验证明了其优于TF*IG等一些方法[64]。其中RF的计算公式如式3-9所示：

(3-9)

其中，定量2是由于对数操作是以2为底的，a,c的定义类似于CHI公式，即a为特征和类型共同出现的次数，c是特征出现而类型不出现的次数。

本文采用的特征权重计算方法包括：布尔权重、TF、log(TF)、TF*IDF、TF*CHI以及TF*RF，旨在比较不同的特征权重计算方法对于情感分类的影响。

3.4 SVM参数选择优化

本文使用台湾大学林智仁(Lin Chih-Jen) 副教授等开发设计的LIBSVM 软件进行情感分类。LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，该软件提供了很多的默认参数，减少对SVM所涉及的参数的调节；此外，还提供了交叉验证的功能。

LIBSVM中两个关键参数为C和γ(gamma)。C为错分样本惩罚因子，即误差的容忍度。C越大，表示对误差的容忍度越小，即越不能容忍误差的出现[54]。C过大过小都会影响模型的泛化能力。γ是RBF（Radial Basis Function，径向基函数）核函数自带的一个参数。该参数隐含地改变样本数据子空间分布的复杂程度，γ越大，支持向量越多，反之则反。支持向量的个数直接影响着模型训练和预测的速度。来~自^751论+文.网www.751com.cn/

3.5 分类结果确定

本文中模型返回结果包括两部分，分别为：类别和隶属度，隶属度的分值越大，表明该样本属于该类的置信度越大[54]。隶属度的具体计算公式，如下：

(3-8)

其中Si表示所有支持判别类的分数，Ks表示所有支持判别类的个数，K为所有类别的个数。隶属度设置目的是为了进行分类结果过滤，因为样本的不平衡和随机抽样等问题，仅靠类别标签来作为分类结果，其准确率较低，加入隶属度能够以设定阈值的方式来提高准确度。

本文采用的类隶属度的算法为one-against-one（一对一）算法[65]。本文的情感分类是将评论语料分为两类，即是一个二分问题，故可看作上述算法的一个特例，基本思路与之一致。

4 不同领域评论信息情感分类及结果比较分析

上述内容介绍了情感分类的关键技术，以下从实验数据准备，SVM模型训练等方面逐步实现情感分类并进行分类结果分析。

不同领域中文评论信息的情感分类效果比较研究(9):http://www.751com.cn/xinwen/lunwen_74792.html