毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

网络新闻文本中的命名实体自动抽取研究(2)

时间:2021-05-04 17:15来源:毕业论文
15 4.5 测试结果 16 4.5.1 查全率统计 16 4.5.2 查准率统计 21 4.6 测试结果分析 23 4.6.1 人名抽取 23 4.6.2 时间抽取 24 4.6.3 地名的抽取 24 4.6.4 机构名的抽取 25 5 相关

15

4.5 测试结果 16

4.5.1 查全率统计 16

4.5.2 查准率统计 21

4.6 测试结果分析 23

4.6.1 人名抽取 23

4.6.2 时间抽取 24

4.6.3 地名的抽取 24

4.6.4 机构名的抽取 25

5 相关改进方案设计 25

5.1 人名识别 25

5.1.1 中国人名的识别方法 25

5.1.2 规则改进 26

5.2 机构名识别 27

5.2.1  规则设定 27

5.2.2 算法设计 28

6 改进后的系统测评 30

6.1 测试结果 30

6.1.1 查全率统计 30

6.1.2 查准率统计 32

6.2 测试结果分析 34

结  论 35

致  谢 37

参 考 文 献 38

1 引言

随着计算机广泛应用于互联网的高速发展,网络信息不断爆炸式增长。信息的过量增长带来一定负面影响,面对大规模的信息,用户难以找到自己真正需要的信息。信息抽取(Information Extraction)正是在这种背景下产生并发展起来的。在信息抽取领域中,命名实体(Named Entity)是文本中基本的信息元素,是正确理解文本的基础。

2 命名实体综述

2.1命名实体的类型

命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等。广义地讲,命名实体还可以包括时间数量表达式等。

关于命名实体的分类也不是一成不变的,而是发生了一定的变化。由美国国防高级研究计划委员会资助的消息理解系列会议MUC(Message Understanding Conference),从1987年开始到1998年共举行了七届。在1995年9月举行的第六届MUC会议中,引入了命名实体识别评测人物,主要包含中文、英文和日文等三种语言的评测,1998年召开的MUC-7中命名实体被分为人名、地名、机构名、日期、时间、百分数和货币等七类。随着MUC会议的停止,从2000年开始由美国标准技术研究院组织的内容自动抽取评测会议(the Automatic Content Extraction.ACE)接过了MUC的任务,将信息抽取的研究推到了一个新的高度。ACE技术的研究发展目标是支持不同方式的分类、过滤和选择,通过抽取来呈现文本的内容,因此ACE需要发展自动检测和表现语言的意义的技术,ACE会议基本任务定义了实体检测和识别、数值检测和识别、时间检测和识别、关系检测和识别、事件监测和识别。[1]

一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

2.2 命名实体的识别

命名实体识别的过程通常包括两部分:(1)实体边界识别;(2))确定实体类别(人名、地名、机构名或其他)。

英语中的命名实体具有明显的形式标志(即实体中的每一个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。与英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。汉语命名实体识别的难点主要存在于: 网络新闻文本中的命名实体自动抽取研究(2):http://www.751com.cn/jisuanji/lunwen_74783.html

------分隔线----------------------------
推荐内容