5 以统计为手段的隐喻分析模型
Mason提出一种为发现和分析常规隐喻的隐喻计算系统(CorMet),该系统通过实现领域选择优先来发现系统参数。这种选择优先从大规模的特定领域语料库中推断出来[30]。
Mason利用WordNet语义资源,获取了每个领域特征动词的优先选择,一个动词的优先选择就是在一个特殊格槽中动词的偏爱,例如,“pour”的宾语一般是“液体”,可以根据“pour”支配的宾语名词是“液体”与否,来判定是隐喻或非隐喻。该系统CorMet通过发现领域之间优先选择倾向的差异来发现隐喻。其分析过程包括以下几个部分:
(1)从互联网上搜集领域语料
CorMet从网上搜集到具体领域语料库;一个返回具体领域文件,一个返回包括特征词语的领域文件。被提炼的文件用apple pie分析器分析,从抽取的句子中提出格框架模板。
(2)发现领域特征谓词
CorMet选择寻找领域中重要动词的子集,根据语料库中词根所出现的比率与英语通用词典频率比作为领域的相关频率,相关频率高低被认为是特征词语。相对频率高的作为领域特征谓词。
(3)优先选择算法
CorMet首先采用Resnik[31]的优先选择算法来获取动词的语义优先,发现最能表示格槽优先选择的WordNet语义节点,一个格槽选择的全面衡量使用选择优先强度表示,记作:SR(p)=(Selectional-preference strength)。根据相关熵最后得到公式(1)
这里SR(p)表示后验概率P(c | p)和先验概率P(c)之间的相对熵,P(c)表示WordNet节点c或者它的子孙节点的先验概率,P(c | p)表示概念c和它的子孙节点出现在格槽p上的概率。一个格槽选择特定节点的程度使用选择关联(selectional association)来衡量,如公式(2)所示:
这里Λ表示WordNet节点node出现在动词格位上的选择优先度,谓词verb在格位case上的选择优先可由一个向量来表示,其中的元素对应于WordNet中相应节点与它之间的选择相关,该文利用最近邻knn聚类分析算法得到可以表示该领域的各类特征概念聚类,并记录支持各个概念类的谓词集。
CorMet系统虽然利用机器学习方法,自动获取谓词的选择优先,但是他的理论思想和Wilks、Fass的思想是一致的,所不同的是CorMet系统主要是语料库驱动,而不是手工词库驱动,这样避免了基于优先语义方法中手工构造知识库的不足。但是,由于它主要依赖于谓词来进行分析,名词隐喻还无法处理。
基于统计方法的还有Kintsch[32]的CI-LSA(Latent Semantic Analysis)框架的设计。该系统考察了“X is Y”类型的隐喻,第一步利用LSA计算X和Y之间,以及它们与其他词的语义距离,根据语义接近的词向量空间相近的原理,计算词与词的语义距离。
张威[19]从认知逻辑入手,通过设计池空间、格式塔规则,构造一个隐喻逻辑体系来解释语言中普遍存在的隐喻现象。同时也使用潜在语义空间和互信息的发掘算法,利用语篇上下文寻找隐喻句的隐含意义。从计算角度分析汉语还是首创,但是他们只是对“A是B”这一种形式的识别。