自然语言处理技术:文本信息抽取及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.1 基于规则的方法

许多现实生活中的信息抽取任务可以通过一系列抽取规则来进行处理。一个基于规则的抽取系统通常包括一个规则集合和规则执行引擎(负责规则的应用、冲突消解、优先级排序和结果归并)。规则系统对于抽取可控且表达规范的信息非常有效,如文本中的时间、电话号码、邮件地址,以及机器生成页面的结构化信息(如商品页面中的商品记录)。在早期,大部分信息抽取系统(如MUC评测中的信息抽取系统)都采用基于规则的方法。信息抽取系统的规则可以有多种不同的表现形式,如正则表达式、词汇-语法规则、面向HTML页面抽取的Dom Tree规则等。抽取规则可以通过人工编写得到或者使用学习方法自动学习得到。为了方便规则的编写,目前已有许多抽取规则开发平台被开放出来,如由Apache基金会推出的UIMA Ruta系统。与此同时,规则的自动学习也一直是研究界的关注所在,已经有许多自动规则学习方法被提出。抽取一类特定信息,通常需要一系列相关的抽取规则。在实际情况中,通常会存在规则相互冲突或规则不一致的情况。因此,抽取规则的管理、冲突消解和优先级排序也是基于规则的信息抽取研究内容。基于规则的方法在扩展性、表达性、组合性和调试性上都具有良好的表现,目前基于规则的方法仍然被广泛使用。如何构建更高效的规则执行引擎、更方便的规则开发平台、更具表达能力的规则表示语言是当前规则抽取系统的研究重点。同时,如何学习更精准的抽取规则、如何消除抽取规则的歧义、如何自动评估规则的效果也一直是基于规则的信息抽取系统的研究难点所在(如Bootstrapping系统通常会遇到的语义漂移问题)。