HTMLParser的网页信息提取分析国内外研究现状(2)

第三次信息理解会议是在两年之后的那个5月举行的，这次参与的系统已经增加到十五个，提取的源信息是从一则新闻报告提取的关于恐怖事件的信息，定义的提取信息模板由十八个信息槽组成。与第二次不同的是从这次会议开始正式确立的正确的测评标准，并且在标准中借用了一些如召回率和准确率这样的属于信息检索领域的概念。

在1992年6月召开的第四次信息理解会议共选择了十七个系统参加，任务与前一次信息理解会议一模一样，仍旧是从新闻报告里面提取相关信息。但与前一次不同的是这次的提取模板变得更加的复杂了，这次共有二十四个信息槽组成。并且从这一届开始TIPSTER文本项目正式接纳信息理解会议。

第五次信息理解会议是在1993年的8月召开的，这次依然是有十七个系统参加，其中美国有十四个，其他日本、英国、加拿大各只有一个。与此前不同的是这次会议专门设计了两个完全不同的目标场景：一个是金融领域中的公司合资情况，另一个是在微电子的技术领域中芯片制造处理技术的进展情况。除了对英语信息提取进行测试外，这次信息理解会议还对另一种语言----日语的信息提取系统进行评价和测试。另外在本次会议中，组织者首次尝试通过对平均填充错误率的计算来将其作为主要的评价指标。这次信息理解会议跟以前的会议相比提取任务的复杂性和难度都更大。例如在金融公司的场景就需要添加十一种模板，共计四十七个信息槽，仅仅是用于任务描述的文档就有四十多页。而且通常认为，第五次信息理解会议的提供的模板和信息槽的填充方法是所有信息理解会议测评中最为复杂的一个。

这次会议的另一个最为重要的创新就是增加了一种用于嵌套的模板。在以前，信息提取模板只有是扁平结构的单个模板这一种模版方式，这次会议通过对面向对象理论和对象建模框架知识等方面的理解，增加了这种嵌套模板。不同于单个模版的局限性，嵌套模板中的每个信息槽的取值包括了单个模版含有的文本串、格式化串和有限集合中的元素外，还包括一个它特有的值-----指向另外一个别的子模板的指针。65500

在1995年的9月召开的第六次信息理解会议在练习的信息场景是对于产生劳动争议双方的协商情况，但在正式进行测试的时候用于提取的信息场景是对公司的中层人员的正常职务调动的情况。在这次会议共有十六家单位参与了练习和测试。相对与以往的会议，这次会议没有进行任何特别大的改动，只是这次信息理解会议的测评比以往更加细致，在技术方面更加强调提取系统的可移植性和提取系统对任何文本的高级理解能力。除了场景模板的基础填充的任务之外，在这次会议中又引入另外三个新的测评任务，它们分别是命名实体的识别、共指关系的确定和模板元素的填充。命名实体的识别的主要任务是要通过识别该文本信息中出现的专有名词和具有意义的短语并对其加以分类并存储。共指关系的确定的任务主要是要对给定的文本识别出其包含的参照表达式，并且对表达式之间具有的共指关系加以确定。模板元素的填充的任务主要是要对特定类型所拥有的所有实体加以识别并对它们的属性特征进描述。

距今最近的一次信息理解会议会议是在1998年4月召开的。在练习时运用的信息场景是在飞机失事事件中出现的信息，在测试时运用的信息场景是航天器发射事件出现的信息。除了上次会议已经有了的那四项测评任务以外，这次信息理解会议又增添了一项新的任务，即模板关系任务，这个任务意在确定任何实体之间的与其特定的领域无关的关系。在这次会议有十八家单位参与了会议的测评。另外，在第六次会议和这次会议中，组织者提出进行系统移植的时间必须控制在一个月内，在前几次会议的测评中的移植时间是长达六到九个月之久。 HTMLParser的网页信息提取分析国内外研究现状(2):http://www.751com.cn/yanjiu/lunwen_73290.html