抄袭检测系统国内外研究现状和发展趋势

国外情况国外对抄袭检测最早是在70年代对代码的检测，真正的文本检测系统的实现要追溯到90年代。1993年Manber研制出了基于字符串匹配思想的用于大规模文件系统查找相似文档的文本检测工具SIF工具，它提出的“近似指纹”为文本复制检测技术研究奠定了基础。1995年，斯坦福大学的Brin和James Davis等人提出了基于文档复制机制的文本复制检测系统COPS，实现了完全复制和部分复制的检测。但是COPS系统以句子作为匹配单位，由于句子划分不够准确，常常增加多余的索引空间。同年，Narayanan Shivakumar 和 Hector Garcia-Molina等人采用词频统计技术和相应的相似度计算方法研制出的SCAM得到了比COPS更优的检测结果。后Narayanan Shivakumar 和 Hector Garcia-Molina在SCAN的基础上提出了DSAM模型，把检测范围从单个注册数据库扩展到分布式数据库上一级在Web上探测文档复制的方法。1996年，悉尼大学的Wise开发了用于程序复制检测的工具YAP1和YAP2，并在此基础上研制了YAP3工具即实现了程序的复制检测也实现了自然语言文档的检测。62977

2000年，Monostori等采用基于后缀树的字符串匹配方法来进行文本复制检测，提出了MDR（Match Detect Reveal）系统模型，采用后缀树来搜索字符串之间的最大字串，后又提出了后缀向量存储后缀树，提高识别效率。2002年，Chow dhury等采用了stiff的相关技术开发了I-Match系统，I-Match系统对数据进行智能化处理，使得系统执行效率有了进一步的提高。2003年，Schleimer等提出了基于数字指纹Winnowing算法来精确识别文档复制问题，并用于抄袭识别在线服务网站MOSS上。目前，作为国外最大的抄袭检测网站Turnitin，不仅可以实现网页检索，还可以与系统本身数据库的电子资源进行匹配检索。国外抄袭检测技术日趋成熟，对抄袭现象的蔓延起很好的遏制作用。论文网

2 国内情况

我国的抄袭检测技术研究起步比较晚，现还处于起步阶段。大多数机构对抄袭检测这个概念不甚了解，没有意识到要采用有效的技术手段去遏制抄袭行为，只是简单的依靠人工检测的方法。随着互联网的普及，抄袭现象越来越严峻，对学术风气造成了不良影响，国内学术机构逐渐意识到抄袭检测技术的重要性。但是由于中文字符和英文字符的差异，一些国外的研究成果不能被我国直接利用。

2001年，中国首家以抄袭检测为目的地网站——好汉网正式投入应用，但是检测的实行需要庞大的文档数据库的支持，由于数据库资源的有限性使得网上许多文章都没有纳入检测库中，严重影响了检测的准确性。随着近几年的一些丑闻的揭露，使得人们对这方面的关注度不断增加，促使我国的抄袭检测研究工作进一步得到完善。2005年，大连理工大学的金博、史彦军、腾鸿飞将数字指纹技术和词频统计数技术相结合，通过分析文档篇章结构计算文本的相似度。2006年，西安交通大学的宋擒豹、沈钧毅等人提出的CDSDG原型系统，采用基于词频统计的重叠度度量方法不仅能检测出文本的部分抄袭和全部抄袭，而且还可以检测出文本部分更改的抄袭。2008年，武汉大学研制出了ROST抄袭检测系统，在信息指纹法的基础上加柔性匹配进行检测。同年，由清华大学和中国知网共同推出的“学术不端文献检测系统”以知网电子资源库作为检测的文档总库，不仅能够对不同类型的文档进行检测，还支持词语、句子到段落的数字指纹定义。由于我们国家的逐渐重视，国内已经陆续研究出了多种抄袭检测技术，并都实现出了相应的应用，随着技术的深入，抄袭检测技术的研究将会更加的完善。抄袭检测系统国内外研究现状和发展趋势:http://www.751com.cn/yanjiu/lunwen_69330.html