SlideShare une entreprise Scribd logo
1  sur  8
Télécharger pour lire hors ligne
基于 WordNet 的英语词语相似度计算
                                   颜伟      荀恩东
                      北京语言大学 语言信息处理研究所 北京 100083
                         E-mail: {yanwei,edxun}@blcu.edu.cn
摘要:本文主要介绍一种基于 WordNet 的英语词语相似度的实现方法,我们从 WordNet
中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面:
                                                                   。
(1)WordNet 的同义词词集(Synset)(2) 类属信息(Class) (3)意义解释(Sense explanation)
实验结果表明这是计算英语词语相似度的一种可行的方法。
关键词:WordNet,词语相似度




  English Word Similarity Calculation Based
                                   on WordNet
                                        Yan Wei     Xun Endong
                               Language Information Processing Center
                      Beijing Language and Culture University Beijing 100083
                                E-main: {yanwei,edxun}@blcu.edu.cn
Abstract: In our approach, English WordNet is used as the general synonym resource. The algorithm
extracts synonym and use vector based method to calculate the English word similarity. The vector
includes three kinds of information.(1)WordNet synonym. (2) Class. (3)Sense explanation. It is a
feasible way to calculate the similarity of the English words in the experiments.
Keywords: WordNet, word similarity




1 引言

   随着自然语言处理技术的发展,语义研究,特别是词汇语义研究,成为目前自然语言
处理领域的热点和前沿课题。本文介绍一种基于 WordNet 英语词语相似度计算的实现方
法,希望能对英语词语间语义关系进行一些数量化研究。同时也希望能对中文信息处理及
双语翻译提供一些方法和借鉴。
   词语距离的计算方法大体上可以分成两类:一类是根据某种世界知识(ontology)来
计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资
源中概念之间的上下位关系和同位关系来计算词语的相似度。在这方面,许多学者已经基
于 WordNet 做了大量的工作。另一类方法利用大规模的语料进行统计,这种基于统计的方
法,主要将上下文信息的概率分布作为词汇语义相似度的参照。第一类方法建立在两个词
汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路这样
的假设的基础上。       第二类方法建立在两个词汇具有某种程度的语义相似当且仅当它们出现
在相同的上下文中这个假设的基础上。
      基于语义词典的方法通常依赖于比较完备的大型语义词典。                 一般同义词词典都是将所
有的词组织在一棵或几棵树状的层次结构中。我们知道,在一棵树形图中,任何两个结点
之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种
度量。如 Rada R. etc 和 Lee J.H. etc 通过计算在 WordNet 中词节点之间上下位关系构成的
最短路径来计算词语之间的相似度。有些学者考虑的情况更复杂。Resnik,P.根据两个词的
公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre & Rigau (1995)在利用
WordNet 计算词语的语义相似度时,            除了结点间的路径长度外,    还考虑到了其他一些因素。
例如:概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语
义距离较大;概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中
高密度区域,       其语义距离应大于位于低密度区域的。           由于 WordNet 中概念描述的粗细程度
不均,有些领域概念的描述极其详尽,而有些区域的概念描述又比较粗疏,所以加入了概
念层次树区域密度对语义距离的影响。基于词典的方法比较直观而且简单有效,但它受人
的主观影响比较大有时不能反映客观现实。
      基于统计的方法将词汇的上下文信息的概率分布作为词汇语义相似度计算的参照。
Lillian Lee 利用相关熵,P.Brown etc 采用平均互信息来计算词语之间的相似度。基于统计
的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。但是,这种方法
比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声
的干扰较大,有时会出现明显的错误。
      本文主要介绍一种基于 WordNet 的词语相似度的实现方法,            这主要是一种基于语义词
典的方法,我们从 WordNet 中提取同义词并采取向量空间方法计算英语词语的相似度,                  。


2 WordNet 的特点及其在英语词语相似度计算中的作用

  语义分析,作为自然语言处理技术的一个重要方面,它所依赖的语言知识表示中最重要
的初始环节就是语义词典。一部能够表达概念关系的语义词典是面向内容信息的自然语言处
理工作的一项不可或缺的基础性资源。美国 Princeton 大学的 WordNet 就是一个语义词典的非
常好的范例。它是在 Princeton 大学认知科学实验室的 G. Miller 教授指导下开发的,实际工作
始于 1985 年。作为心理语言学家的实验品,WordNet 的最初设计并不是接受计算语言学的影
响或直接为自然语言处理服务的。 年代末,       语义计算的需要,      计算语言学家发现了 WordNet
                      80
并将之应用于自然语言处理中涉及语义分析的诸多领域。         WordNet 的基本思想简单明确,    它的
形式化做得很彻底。目前,WordNet 已经成为一个事实上的国际标准,从 EuroWordNet 发展的
事实不难看出,WordNet 框架的合理性已被词汇语义学界和计算词典学界所公认。
  WordNet 是一个在线的词汇参照系统,   它的独特之处在于它是依据词义而不是依据词形来
组织词汇信息。WordNet 使用同义词集合(Synset)代表概念(Concept)  ,词汇关系在词语之
间体现,语义关系在概念之间体现。WordNet 构造的核心是如何表示词汇概念节点,以及在这
些概念节点之间建立起各种语义关系。WordNet 将英语词汇组织为一个同义词集合(Synset),
每个集合标明一个词汇概念;同时力图在概念间建立不同的指针,表达上下位、同义反义等
不同的语义关系。这样就构成了一个比较完整的词汇语义网络系统。经过这样的过程,原本
抽象的概念就被形式化了,变得具体而且可以通过词汇意义加以操作,概念之间还可以建立
多种语义关系的联系和推理。这是在传统的义素分析法外简单而有效地表达词汇语义的另一
种新的方式和途径。
  WordNet 现在已经发布了 2.0 版本,本文的实验是基于 1.6 版本进行的。Version 1.6 主要
包括名词、动词、形容词和副词四类实词,虚词不予考察。在上述四类实词中,WordNet 着重
描写的是名词和动词。WordNet 中词汇概念的语义关系主要包括:上下位、同义、反义、整体
和部分、蕴含、属性、致使等。WordNet Version 1.6 种描写了四类实词 99643 个概念节点和超
过 5000000 个语义关系,形成了一张庞大的概念语义网络。


3 基于 WordNet 的英语词语词义相似度计算

3.1:本文的工作目标
    我们相似度计算的最终目标是要服务于一个实用的英语信息检索系统。在信息检索中,
用户的 query 一般都很短,我们能获得的信息很少。虽然,在英语中我们根据用户的 query 一
般可以判断出检索词的词性。但对于多义词,我们往往无法判断出用户到底想检索含有哪个
义项的文档,比如用户输入“bank”  ,我们很难判断出用户是想查询关于银行方面的文档还是
查询关于河岸方面的文档。在这儿,我们引入相似度计算的方法,目的是为信息检索提供一
个以检索词为中心按照相似度从高到低排列的相似词语的集合,根据这个集合我们可以向用
户返回检索结果或进行问题扩展。我们的方法区分词语的不同词性,对多义词,我们不区分
它的不同义项,只提供一个基于 WordNet 的相似词语的集合。
    在我们的工作方案中,我们首先以 WordNet 的词汇语义分类作为基础,抽取出其中的同
义词,然后采用基于向量空间的方法计算出相似度。工作流程如下:




3.2:基于 WordNet 的英语词语相似度计算
3.2.1:特征提取
     我们利用 WordNet 提供的接口函数,从 WordNet 的同义词词集(Synset)
                                                 、属类词(Class
word)和意义解释(Sense explanation)这三个集合中抽取出候选同义词,然后进行特征提取,

计算出 feature (SW ) :

            feature ( SW ) = {{Ws}, {Wc}, {We}}

           {Ws} : WordNet 中 Sense W 所有的同义词;

           {Wc} : Sense W 所有的相关的属类;

           {We} : Sense W 的解释中所有的实词。

3.2.2:意义相似度和词语相似度的计算
     根据上面对词汇语义特征的描述,两个意义(Sense)之间的相似度可以通过计算其在三
个不同的意义特征空间中的距离来得到。距离越小,相似度越大。依据意义相似度我们就可
以容易地计算出 WordNet 中两个词语之间的相似度。
      • 意义相似度
                                                              ∑ {Wsj} ×IDF (wi ) 2 + w ∈{Wci}∩{Kc}× IDF (wi ) 2 + w ∈{Wei}∩{Ke}× IDF (wi ) 2
                                                                                          ∑ Wcj                        ∑ Wej
                                                                   Ks
                                          1             wi ∈{Wsi}∩
      Similarity( SWi , SW j ) =                      ×                               i                            i


                                                                           ∑ K × IDF ( wi ) 2 ×           ∑ K × IDF ( w j ) 2
                                 No( SWi) × No( SWj )
                                                                            i∈QU , K ∈{ Ks , Kc , Ke )                        j∈Qv , K ∈{ Ks , Kc , Ke )




      其中:

      No(SW): W 意义的顺序。例如,the first sense =1, the second sense =2……

      IDF( wi ):           从 WordNet 中训练得到的构建 WordNet 时出现某个 wi 的文档的倒数

      Ks=1.5: 同义词特征的权重,
      Kc=1: 类属特征的权重,
      Ke=0.5:意义解释的权重,

           :出现 wi 的指标集,
      QU



           :出现 w j 的指标集
      Qv




      •    词语相似度

                                     ∑                                                                        ∑
                                                      max ( Similarity ( SW 1i , SW 2 j ) +                                    max ( Similarity ( SW 2i , SW 1 j )
                                                   j∈{1,..,| SW 2|}                                                         j∈{1,..,| SW 1|}
                                i∈{1,..,| SW 1|}                                                         i∈{1,..,| SW 2|}
      Similarity (W1 , W2 ) =
                                                                                    | SW 1 | + | SW 2 |

        其中:
      |SW1|:W1 的 sense 的个数,
      |SW2|:W2 的 sense 的个数。
4 实验结果及分析

  我们对实验结果进行了人工的评价,评价方法主要是对计算得到的语义相似度的序列和
人工的排列结果进行比较,结果表明前述方法的计算结果和人工按照语义相似度的排序结果
基本一致。在后续的工作中我们打算把相似度检索结果作为信息检索系统的一个部分,具体
考察词语相似度计算对我们工作的贡献。
  语义相似度计算,其单个词与中心词语义相似度的具体取值并不重要,那只是统计意义
上的一个数值,重要的是这些词汇相对于中心词可以依照语义相似度的取值相互比较,并形
成语义相似度由高到低的序列。我们的工作目标是研制一个实用的信息检索系统,语义相似
度对于提高信息检索的精确度和召回率都有重要的实用价值。
  比如,用户想检索含有“sanctity”的相关文章,但我们的文档中没有这个词,我们就
可以依据相似度计算(见表 1)结果,在相似词序列中按相似度从高到低的顺序检索出相关文
档返回给用户。
            表 1:sanctity 相似词语序列(部分)
中心词             相似词             相似度                 sanctity      simpleness        0.149
sanctity       holiness         1.000               sanctity    wholesomeness       0.148
sanctity      sacredness        0.230               sanctity     unlawfulness       0.148
sanctity    expressiveness      0.199               sanctity     incredibility      0.148
sanctity      insolubility      0.199               sanctity    incredibleness      0.148
sanctity   counter factuality   0.194               sanctity      worldliness       0.146
sanctity   constructiveness     0.189               sanctity       factuality       0.141
sanctity     unpopularity       0.185               sanctity      factualness       0.141
sanctity      unholiness        0.169               sanctity      popularity        0.140
sanctity      humanness         0.161               sanctity      lawfulness        0.139
sanctity   parental quality     0.161               sanctity   unsatisfactoriness   0.139
sanctity     particularity      0.161               sanctity        finitude        0.136
sanctity      inaccuracy        0.158               sanctity     boundedness        0.136
sanctity       ethnicity        0.155               sanctity       finiteness       0.136
sanctity     measurability      0.154               sanctity    satisfactoriness    0.135
sanctity    quantifiability     0.154               sanctity     ordinariness       0.126
sanctity    destructiveness     0.151               sanctity      negativism        0.121
                                                     ……           …………              ……
sanctity      nativeness        0.150


    我们的方法提供了一个针对某一个中心词的按照相似度从高到低排列的词语的序列,                                                        ,
同时我们可以区分出同一个词不同的词性的相似词语的序列。                                     这一点在英语信息检索中很有
价值。用户的 query 如果是一句话,那么我们就可以根据词语的不同词性进行检索或进行问
题扩展。比如,在 WordNet 中“doctor”有名词和动词两种词性,我们就可以依据不同的词
性来选择合适的相似词语序列进行检索或问题扩展。
    名词“doctor”      :
    1. doctor, doc, physician, MD, Dr., medico -- (a licensed medical practitioner; quot;I felt so bad I
went to see my doctorquot;)
    2. Doctor of the Church, Doctor -- ((Roman Catholic Church) a title conferred on 33 saints
who distinguished themselves through the othodoxy of their theological teaching; quot;the Doctors of
the Church greatly influenced Christian thought down to the late Middle Agesquot;)
     3. doctor -- (children take the roles of doctor or patient or nurse and pretend they are at the
doctor's office; quot;the children explored each other's bodies by playing the game of doctorquot;)
     4. doctor, Dr. -- (a person who holds Ph.D. degree from an academic institution; quot;she is a
doctor of philosophy in physicsquot;)
                             表 2:doctor(名词)相似词语序列(部分)
    中心词                                相似词                                相似度                模式
    doctor                               doc                               0.400             <N N>
    doctor                           physician                             0.400             <N N>
    doctor                    medical practitioner                         0.270             <N N>
    doctor                          medical man                            0.270             <N N>
    doctor                             Doctor                              0.250             <N N>
    doctor                     health professional                         0.223             <N N>
    doctor                    health care provider                         0.223             <N N>
    doctor                     medical specialist                          0.209             <N N>
    doctor                           caregiver                             0.186             <N N>
    doctor                     professional person                         0.150             <N N>
    doctor                         professional                            0.107             <N N>
    doctor                             grownup                             0.099             <N N>
    doctor                              adult                              0.083             <N N>
    doctor                            sawbones                             0.081             <N N>
    doctor                      operating surgeon                          0.081             <N N>
    doctor                             surgeon                             0.081             <N N>
    doctor                         psychoanalyst                           0.077             <N N>
    doctor                            alienist                             0.077             <N N>
    doctor                         horse doctor                            0.076             <N N>
    doctor                          pathologist                            0.075             <N N>
    doctor                         diagnostician                           0.075             <N N>
    doctor                         brain doctor                            0.074             <N N>
    doctor                          neurologist                            0.074             <N N>
      ……                              …………                                  ……               ……
     (其中“模式”表示的是中心词和相似词的词性)

     动词“doctor”      :
     1:sophisticate, doctor, doctor up -- (alter and make impure, as with the intention to deceive;
quot;Sophisticate rose water with geraniolquot;) => adulterate, stretch, dilute, debase -- (corrupt, debase,
or make impure by adding a foreign or inferior substance; often by replacing valuable ingredients
with inferior ones; quot;adulterate liquorquot;)
     2:doctor -- (give medical treatment to)=> treat, care for -- (provide treatment for; quot;The
doctor treated my broken legquot;; quot;The nurses cared for the bomb victimsquot;; quot;The patient must be
treated right away or she will diequot;; quot;Treat the infection with antibioticsquot;)
     3: repair, mend, fix, bushel, doctor, furbish up, restore, touch on -- (restore by replacing a part
or putting together what is torn or broken; quot;She repaired her TV setquot;; quot;Repair my shoes pleasequot;)=>
better, improve, amend, ameliorate, meliorate -- (to make better; quot;The editor improved the
manuscript with his changesquot;
                          表 3:doctor(动词)相似词语序列(部分)
      中心词                            相似词                             相似度                      模式
       doctor                       doctor up                         0.500                  <V V>
       doctor                       adulterate                        0.400                  <V V>
       doctor                         Doctor                          0.333                  <V V>
       doctor                       adulterate                        0.065                  <V A>
       doctor                      sophisticate                       0.047                  <V V>
       doctor                       furbish up                        0.040                  <V V>
       doctor                         bushel                          0.040                  <V V>
       doctor                         repair                          0.040                  <V V>
       doctor                      sophisticate                       0.040                  <V N>
       doctor                          mend                           0.032                  <V V>
       doctor                           Dr.                           0.032                  <V N>
       doctor                          darn                           0.031                  <V V>
       doctor                     trouble-shoot                       0.031                  <V V>
       doctor                          sole                           0.028                  <V V>
       doctor                         reheel                          0.028                  <V V>
       doctor                         repoint                         0.028                  <V V>
       doctor                         resole                          0.028                  <V V>
       doctor                        revamp                           0.027                  <V V>
       doctor                        patch up                         0.023                  <V V>
       doctor                         restore                         0.017                  <V V>
       doctor                           fix                           0.012                  <V V>
       ……                           …………                              ……                      ……
     (其中“模式”表示的是中心词和相似词的词性)


5 结论

  对于自然语言处理,语义分析面临的首要任务就是词汇间语义关系的数量化,即选择合
适的方法和模型来描述语义关系。作为一个初步的研究,将词汇间的种种关系,映射为一个
表示词语相似程度的数值,并以这一数值来产生词语相似性的排列序列,以简化词汇语义间
复杂的难以把握的语义关系,是研究语义关系的一个切入点。作为汉语信息处理研究,我们
可以从英语自然语言处理中借鉴许多有益的方法和手段。汉语语义分析,归根结底依赖于一
个大型词汇概念网络的建立,依赖于语言知识的注入。在目前汉语语义分析领域,我们还没
有这样一个词汇概念网络。同时,我们在进行这样一个词汇概念网络的设计时应该考虑到应
用领域、处理的颗粒度等许多实际的问题,这样我们的设计结果和人力物力的投入才会是有
意义的。

                                               参   考    文     献
[1] George A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller. Introduction to
  WordNet: An On-line Lexical Database[EB], Cognitive Science Laboratory Princeton University, 1993, 8.
[2] Rada R. etc Development and application of a metric on semantic nets. IEEE Transactions on System, Man and
Cybernetics, 1989
[3] Lee J.H. etc Information Retrieval based on conceptual distance in ISA hierarchies’, Journal of
  Documentation,1993(49)
[4] Agirre E. and Rigau G. (1995), A proposal for word sense disambiguation using conceptual distance, in
  International Conference quot;Recent Advances in Natural Language Processingquot; RANLP'95, Tzigov Chark,
  Bulgaria,.
[5] P.Brown etc Word sense disambiguation using tactical methods. In Proceedings of 29th Meeting of the
  Association for Computational Linguistics (ACL-91) ,1991
[6] Lillian Lee Similarity-Based Approaches to Natural Language Processing Ph.D. thesis. Harvard University
  Technical Report TR-11-97.
[7] 于江生,俞士汶 中文概念词典的结构 中文信息学报 2002(4).
[8] 胡俊峰,俞士汶 唐宋诗中词汇语义相似度的统计分析及应用 中文信息学报 2002(4).
[9] 关毅,王晓龙 基于统计的汉语词汇间语义相似度计算 语言计算与基于内容的文本处理 清华大学出版
  社    2003.8
[10] 刘群,李素建 基于《知网》的词汇语义相似度计算,第三届汉语词汇语义学研讨会,2002.5.

Contenu connexe

Tendances

Open Source Type Pad Mobile
Open Source Type Pad MobileOpen Source Type Pad Mobile
Open Source Type Pad MobileHiroshi Sakai
 
Cambrian Education Group
Cambrian Education GroupCambrian Education Group
Cambrian Education GroupCambriannews
 
20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版- ~How To Output Intellectual Constipa...
20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版-  ~How To Output Intellectual Constipa...20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版-  ~How To Output Intellectual Constipa...
20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版- ~How To Output Intellectual Constipa...Typhon 666
 
数字から読む信号機の傾向と精度2020
数字から読む信号機の傾向と精度2020数字から読む信号機の傾向と精度2020
数字から読む信号機の傾向と精度2020Jun Sasaki
 
Heap overflow
Heap overflowHeap overflow
Heap overflow@x0mg
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705Azerbaijan Laws
 
How To Create Custom DSLs By PHP
How To Create Custom DSLs By PHPHow To Create Custom DSLs By PHP
How To Create Custom DSLs By PHPAtsuhiro Kubo
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088Azerbaijan Laws
 
Online Information 2008 - Final Slides
Online Information 2008 - Final SlidesOnline Information 2008 - Final Slides
Online Information 2008 - Final SlidesJason Griffey
 
【12-D-2】 WPF アプリケーション開発
【12-D-2】 WPF アプリケーション開発【12-D-2】 WPF アプリケーション開発
【12-D-2】 WPF アプリケーション開発devsumi2009
 

Tendances (13)

Open Source Type Pad Mobile
Open Source Type Pad MobileOpen Source Type Pad Mobile
Open Source Type Pad Mobile
 
Cambrian Education Group
Cambrian Education GroupCambrian Education Group
Cambrian Education Group
 
20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版- ~How To Output Intellectual Constipa...
20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版-  ~How To Output Intellectual Constipa...20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版-  ~How To Output Intellectual Constipa...
20210113「アウトプットしないのは知的な便秘」の影響力 -2020年版- ~How To Output Intellectual Constipa...
 
数字から読む信号機の傾向と精度2020
数字から読む信号機の傾向と精度2020数字から読む信号機の傾向と精度2020
数字から読む信号機の傾向と精度2020
 
Blah2
Blah2Blah2
Blah2
 
Engl Info
Engl InfoEngl Info
Engl Info
 
Heap overflow
Heap overflowHeap overflow
Heap overflow
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3705
 
How To Create Custom DSLs By PHP
How To Create Custom DSLs By PHPHow To Create Custom DSLs By PHP
How To Create Custom DSLs By PHP
 
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088
俄语GOST标准,技术规范,法律,法规,中文英语,目录编号RG 3088
 
Online Information 2008 - Final Slides
Online Information 2008 - Final SlidesOnline Information 2008 - Final Slides
Online Information 2008 - Final Slides
 
Hackday Ml
Hackday MlHackday Ml
Hackday Ml
 
【12-D-2】 WPF アプリケーション開発
【12-D-2】 WPF アプリケーション開発【12-D-2】 WPF アプリケーション開発
【12-D-2】 WPF アプリケーション開発
 

Similaire à 基于WordNet的英语词语相似度计算

網絡宣教與牧養教牧講座
網絡宣教與牧養教牧講座網絡宣教與牧養教牧講座
網絡宣教與牧養教牧講座Charles Mok
 
Windows 7兼容性系列课程(5):Windows 7徽标认证
Windows 7兼容性系列课程(5):Windows 7徽标认证Windows 7兼容性系列课程(5):Windows 7徽标认证
Windows 7兼容性系列课程(5):Windows 7徽标认证Chui-Wen Chiu
 
Search Psychology
Search PsychologySearch Psychology
Search Psychologynaoleiying
 
網路、設計、使用者經驗
網路、設計、使用者經驗網路、設計、使用者經驗
網路、設計、使用者經驗Charles (XXC) Chen
 
Prototyping Web Metaphors 20090418
Prototyping Web Metaphors 20090418Prototyping Web Metaphors 20090418
Prototyping Web Metaphors 20090418Charles (XXC) Chen
 
標竿學習的價值
標竿學習的價值標竿學習的價值
標竿學習的價值HelloDaniel
 
Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述Chui-Wen Chiu
 
Ontology-based Content Management System (ICIM 2008)
Ontology-based Content Management System (ICIM 2008)Ontology-based Content Management System (ICIM 2008)
Ontology-based Content Management System (ICIM 2008)Brian Hsu
 
設計思考研究演講 07.11
設計思考研究演講 07.11設計思考研究演講 07.11
設計思考研究演講 07.11NTUST
 
企业级搜索引擎Solr交流
企业级搜索引擎Solr交流企业级搜索引擎Solr交流
企业级搜索引擎Solr交流chuan liang
 
095722121-期中報告-UGC
095722121-期中報告-UGC095722121-期中報告-UGC
095722121-期中報告-UGCcherish0906
 
Richard Databoard
Richard DataboardRichard Databoard
Richard Databoard巍 陆
 
Republic 3 4
Republic 3 4Republic 3 4
Republic 3 4huquanwei
 
Technical challenge of Blog mining and analysis
Technical challenge of Blog mining and analysisTechnical challenge of Blog mining and analysis
Technical challenge of Blog mining and analysisDenis Yu
 
CIC Presentation at Bloggercn by Denis Yu
CIC Presentation at Bloggercn by Denis YuCIC Presentation at Bloggercn by Denis Yu
CIC Presentation at Bloggercn by Denis YuKantar Media CIC
 

Similaire à 基于WordNet的英语词语相似度计算 (20)

網絡宣教與牧養教牧講座
網絡宣教與牧養教牧講座網絡宣教與牧養教牧講座
網絡宣教與牧養教牧講座
 
IA & UCD/UXD
IA & UCD/UXDIA & UCD/UXD
IA & UCD/UXD
 
Windows 7兼容性系列课程(5):Windows 7徽标认证
Windows 7兼容性系列课程(5):Windows 7徽标认证Windows 7兼容性系列课程(5):Windows 7徽标认证
Windows 7兼容性系列课程(5):Windows 7徽标认证
 
Search Psychology
Search PsychologySearch Psychology
Search Psychology
 
網路、設計、使用者經驗
網路、設計、使用者經驗網路、設計、使用者經驗
網路、設計、使用者經驗
 
Prototyping Web Metaphors 20090418
Prototyping Web Metaphors 20090418Prototyping Web Metaphors 20090418
Prototyping Web Metaphors 20090418
 
標竿學習的價值
標竿學習的價值標竿學習的價值
標竿學習的價值
 
产业
产业产业
产业
 
Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述
 
Ontology-based Content Management System (ICIM 2008)
Ontology-based Content Management System (ICIM 2008)Ontology-based Content Management System (ICIM 2008)
Ontology-based Content Management System (ICIM 2008)
 
設計思考研究演講 07.11
設計思考研究演講 07.11設計思考研究演講 07.11
設計思考研究演講 07.11
 
企业级搜索引擎Solr交流
企业级搜索引擎Solr交流企业级搜索引擎Solr交流
企业级搜索引擎Solr交流
 
095722121-期中報告-UGC
095722121-期中報告-UGC095722121-期中報告-UGC
095722121-期中報告-UGC
 
零八宪章百科
零八宪章百科零八宪章百科
零八宪章百科
 
Richard Databoard
Richard DataboardRichard Databoard
Richard Databoard
 
ICT4KMT-20081225
ICT4KMT-20081225ICT4KMT-20081225
ICT4KMT-20081225
 
Republic 3 4
Republic 3 4Republic 3 4
Republic 3 4
 
Dev004奚江華
Dev004奚江華Dev004奚江華
Dev004奚江華
 
Technical challenge of Blog mining and analysis
Technical challenge of Blog mining and analysisTechnical challenge of Blog mining and analysis
Technical challenge of Blog mining and analysis
 
CIC Presentation at Bloggercn by Denis Yu
CIC Presentation at Bloggercn by Denis YuCIC Presentation at Bloggercn by Denis Yu
CIC Presentation at Bloggercn by Denis Yu
 

Dernier

08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking MenDelhi Call girls
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processorsdebabhi2
 
CNv6 Instructor Chapter 6 Quality of Service
CNv6 Instructor Chapter 6 Quality of ServiceCNv6 Instructor Chapter 6 Quality of Service
CNv6 Instructor Chapter 6 Quality of Servicegiselly40
 
Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024
Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024
Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024The Digital Insurer
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Scriptwesley chun
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerThousandEyes
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software
 
Advantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your BusinessAdvantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your BusinessPixlogix Infotech
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Enterprise Knowledge
 
🐬 The future of MySQL is Postgres 🐘
🐬  The future of MySQL is Postgres   🐘🐬  The future of MySQL is Postgres   🐘
🐬 The future of MySQL is Postgres 🐘RTylerCroy
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsMaria Levchenko
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationMichael W. Hawkins
 
Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024The Digital Insurer
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Igalia
 
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptxHampshireHUG
 
Slack Application Development 101 Slides
Slack Application Development 101 SlidesSlack Application Development 101 Slides
Slack Application Development 101 Slidespraypatel2
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)wesley chun
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonAnna Loughnan Colquhoun
 
Factors to Consider When Choosing Accounts Payable Services Providers.pptx
Factors to Consider When Choosing Accounts Payable Services Providers.pptxFactors to Consider When Choosing Accounts Payable Services Providers.pptx
Factors to Consider When Choosing Accounts Payable Services Providers.pptxKatpro Technologies
 
2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...Martijn de Jong
 

Dernier (20)

08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processors
 
CNv6 Instructor Chapter 6 Quality of Service
CNv6 Instructor Chapter 6 Quality of ServiceCNv6 Instructor Chapter 6 Quality of Service
CNv6 Instructor Chapter 6 Quality of Service
 
Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024
Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024
Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Script
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected Worker
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
 
Advantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your BusinessAdvantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your Business
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...
 
🐬 The future of MySQL is Postgres 🐘
🐬  The future of MySQL is Postgres   🐘🐬  The future of MySQL is Postgres   🐘
🐬 The future of MySQL is Postgres 🐘
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed texts
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day Presentation
 
Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
 
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
 
Slack Application Development 101 Slides
Slack Application Development 101 SlidesSlack Application Development 101 Slides
Slack Application Development 101 Slides
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt Robison
 
Factors to Consider When Choosing Accounts Payable Services Providers.pptx
Factors to Consider When Choosing Accounts Payable Services Providers.pptxFactors to Consider When Choosing Accounts Payable Services Providers.pptx
Factors to Consider When Choosing Accounts Payable Services Providers.pptx
 
2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...
 

基于WordNet的英语词语相似度计算

  • 1. 基于 WordNet 的英语词语相似度计算 颜伟 荀恩东 北京语言大学 语言信息处理研究所 北京 100083 E-mail: {yanwei,edxun}@blcu.edu.cn 摘要:本文主要介绍一种基于 WordNet 的英语词语相似度的实现方法,我们从 WordNet 中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面: 。 (1)WordNet 的同义词词集(Synset)(2) 类属信息(Class) (3)意义解释(Sense explanation) 实验结果表明这是计算英语词语相似度的一种可行的方法。 关键词:WordNet,词语相似度 English Word Similarity Calculation Based on WordNet Yan Wei Xun Endong Language Information Processing Center Beijing Language and Culture University Beijing 100083 E-main: {yanwei,edxun}@blcu.edu.cn Abstract: In our approach, English WordNet is used as the general synonym resource. The algorithm extracts synonym and use vector based method to calculate the English word similarity. The vector includes three kinds of information.(1)WordNet synonym. (2) Class. (3)Sense explanation. It is a feasible way to calculate the similarity of the English words in the experiments. Keywords: WordNet, word similarity 1 引言 随着自然语言处理技术的发展,语义研究,特别是词汇语义研究,成为目前自然语言 处理领域的热点和前沿课题。本文介绍一种基于 WordNet 英语词语相似度计算的实现方 法,希望能对英语词语间语义关系进行一些数量化研究。同时也希望能对中文信息处理及 双语翻译提供一些方法和借鉴。 词语距离的计算方法大体上可以分成两类:一类是根据某种世界知识(ontology)来 计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资 源中概念之间的上下位关系和同位关系来计算词语的相似度。在这方面,许多学者已经基 于 WordNet 做了大量的工作。另一类方法利用大规模的语料进行统计,这种基于统计的方 法,主要将上下文信息的概率分布作为词汇语义相似度的参照。第一类方法建立在两个词 汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路这样
  • 2. 的假设的基础上。 第二类方法建立在两个词汇具有某种程度的语义相似当且仅当它们出现 在相同的上下文中这个假设的基础上。 基于语义词典的方法通常依赖于比较完备的大型语义词典。 一般同义词词典都是将所 有的词组织在一棵或几棵树状的层次结构中。我们知道,在一棵树形图中,任何两个结点 之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种 度量。如 Rada R. etc 和 Lee J.H. etc 通过计算在 WordNet 中词节点之间上下位关系构成的 最短路径来计算词语之间的相似度。有些学者考虑的情况更复杂。Resnik,P.根据两个词的 公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre & Rigau (1995)在利用 WordNet 计算词语的语义相似度时, 除了结点间的路径长度外, 还考虑到了其他一些因素。 例如:概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语 义距离较大;概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中 高密度区域, 其语义距离应大于位于低密度区域的。 由于 WordNet 中概念描述的粗细程度 不均,有些领域概念的描述极其详尽,而有些区域的概念描述又比较粗疏,所以加入了概 念层次树区域密度对语义距离的影响。基于词典的方法比较直观而且简单有效,但它受人 的主观影响比较大有时不能反映客观现实。 基于统计的方法将词汇的上下文信息的概率分布作为词汇语义相似度计算的参照。 Lillian Lee 利用相关熵,P.Brown etc 采用平均互信息来计算词语之间的相似度。基于统计 的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。但是,这种方法 比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声 的干扰较大,有时会出现明显的错误。 本文主要介绍一种基于 WordNet 的词语相似度的实现方法, 这主要是一种基于语义词 典的方法,我们从 WordNet 中提取同义词并采取向量空间方法计算英语词语的相似度, 。 2 WordNet 的特点及其在英语词语相似度计算中的作用 语义分析,作为自然语言处理技术的一个重要方面,它所依赖的语言知识表示中最重要 的初始环节就是语义词典。一部能够表达概念关系的语义词典是面向内容信息的自然语言处 理工作的一项不可或缺的基础性资源。美国 Princeton 大学的 WordNet 就是一个语义词典的非 常好的范例。它是在 Princeton 大学认知科学实验室的 G. Miller 教授指导下开发的,实际工作 始于 1985 年。作为心理语言学家的实验品,WordNet 的最初设计并不是接受计算语言学的影 响或直接为自然语言处理服务的。 年代末, 语义计算的需要, 计算语言学家发现了 WordNet 80 并将之应用于自然语言处理中涉及语义分析的诸多领域。 WordNet 的基本思想简单明确, 它的 形式化做得很彻底。目前,WordNet 已经成为一个事实上的国际标准,从 EuroWordNet 发展的 事实不难看出,WordNet 框架的合理性已被词汇语义学界和计算词典学界所公认。 WordNet 是一个在线的词汇参照系统, 它的独特之处在于它是依据词义而不是依据词形来 组织词汇信息。WordNet 使用同义词集合(Synset)代表概念(Concept) ,词汇关系在词语之 间体现,语义关系在概念之间体现。WordNet 构造的核心是如何表示词汇概念节点,以及在这 些概念节点之间建立起各种语义关系。WordNet 将英语词汇组织为一个同义词集合(Synset), 每个集合标明一个词汇概念;同时力图在概念间建立不同的指针,表达上下位、同义反义等 不同的语义关系。这样就构成了一个比较完整的词汇语义网络系统。经过这样的过程,原本 抽象的概念就被形式化了,变得具体而且可以通过词汇意义加以操作,概念之间还可以建立 多种语义关系的联系和推理。这是在传统的义素分析法外简单而有效地表达词汇语义的另一 种新的方式和途径。 WordNet 现在已经发布了 2.0 版本,本文的实验是基于 1.6 版本进行的。Version 1.6 主要
  • 3. 包括名词、动词、形容词和副词四类实词,虚词不予考察。在上述四类实词中,WordNet 着重 描写的是名词和动词。WordNet 中词汇概念的语义关系主要包括:上下位、同义、反义、整体 和部分、蕴含、属性、致使等。WordNet Version 1.6 种描写了四类实词 99643 个概念节点和超 过 5000000 个语义关系,形成了一张庞大的概念语义网络。 3 基于 WordNet 的英语词语词义相似度计算 3.1:本文的工作目标 我们相似度计算的最终目标是要服务于一个实用的英语信息检索系统。在信息检索中, 用户的 query 一般都很短,我们能获得的信息很少。虽然,在英语中我们根据用户的 query 一 般可以判断出检索词的词性。但对于多义词,我们往往无法判断出用户到底想检索含有哪个 义项的文档,比如用户输入“bank” ,我们很难判断出用户是想查询关于银行方面的文档还是 查询关于河岸方面的文档。在这儿,我们引入相似度计算的方法,目的是为信息检索提供一 个以检索词为中心按照相似度从高到低排列的相似词语的集合,根据这个集合我们可以向用 户返回检索结果或进行问题扩展。我们的方法区分词语的不同词性,对多义词,我们不区分 它的不同义项,只提供一个基于 WordNet 的相似词语的集合。 在我们的工作方案中,我们首先以 WordNet 的词汇语义分类作为基础,抽取出其中的同 义词,然后采用基于向量空间的方法计算出相似度。工作流程如下: 3.2:基于 WordNet 的英语词语相似度计算
  • 4. 3.2.1:特征提取 我们利用 WordNet 提供的接口函数,从 WordNet 的同义词词集(Synset) 、属类词(Class word)和意义解释(Sense explanation)这三个集合中抽取出候选同义词,然后进行特征提取, 计算出 feature (SW ) : feature ( SW ) = {{Ws}, {Wc}, {We}} {Ws} : WordNet 中 Sense W 所有的同义词; {Wc} : Sense W 所有的相关的属类; {We} : Sense W 的解释中所有的实词。 3.2.2:意义相似度和词语相似度的计算 根据上面对词汇语义特征的描述,两个意义(Sense)之间的相似度可以通过计算其在三 个不同的意义特征空间中的距离来得到。距离越小,相似度越大。依据意义相似度我们就可 以容易地计算出 WordNet 中两个词语之间的相似度。 • 意义相似度 ∑ {Wsj} ×IDF (wi ) 2 + w ∈{Wci}∩{Kc}× IDF (wi ) 2 + w ∈{Wei}∩{Ke}× IDF (wi ) 2 ∑ Wcj ∑ Wej Ks 1 wi ∈{Wsi}∩ Similarity( SWi , SW j ) = × i i ∑ K × IDF ( wi ) 2 × ∑ K × IDF ( w j ) 2 No( SWi) × No( SWj ) i∈QU , K ∈{ Ks , Kc , Ke ) j∈Qv , K ∈{ Ks , Kc , Ke ) 其中: No(SW): W 意义的顺序。例如,the first sense =1, the second sense =2…… IDF( wi ): 从 WordNet 中训练得到的构建 WordNet 时出现某个 wi 的文档的倒数 Ks=1.5: 同义词特征的权重, Kc=1: 类属特征的权重, Ke=0.5:意义解释的权重, :出现 wi 的指标集, QU :出现 w j 的指标集 Qv • 词语相似度 ∑ ∑ max ( Similarity ( SW 1i , SW 2 j ) + max ( Similarity ( SW 2i , SW 1 j ) j∈{1,..,| SW 2|} j∈{1,..,| SW 1|} i∈{1,..,| SW 1|} i∈{1,..,| SW 2|} Similarity (W1 , W2 ) = | SW 1 | + | SW 2 | 其中: |SW1|:W1 的 sense 的个数, |SW2|:W2 的 sense 的个数。
  • 5. 4 实验结果及分析 我们对实验结果进行了人工的评价,评价方法主要是对计算得到的语义相似度的序列和 人工的排列结果进行比较,结果表明前述方法的计算结果和人工按照语义相似度的排序结果 基本一致。在后续的工作中我们打算把相似度检索结果作为信息检索系统的一个部分,具体 考察词语相似度计算对我们工作的贡献。 语义相似度计算,其单个词与中心词语义相似度的具体取值并不重要,那只是统计意义 上的一个数值,重要的是这些词汇相对于中心词可以依照语义相似度的取值相互比较,并形 成语义相似度由高到低的序列。我们的工作目标是研制一个实用的信息检索系统,语义相似 度对于提高信息检索的精确度和召回率都有重要的实用价值。 比如,用户想检索含有“sanctity”的相关文章,但我们的文档中没有这个词,我们就 可以依据相似度计算(见表 1)结果,在相似词序列中按相似度从高到低的顺序检索出相关文 档返回给用户。 表 1:sanctity 相似词语序列(部分) 中心词 相似词 相似度 sanctity simpleness 0.149 sanctity holiness 1.000 sanctity wholesomeness 0.148 sanctity sacredness 0.230 sanctity unlawfulness 0.148 sanctity expressiveness 0.199 sanctity incredibility 0.148 sanctity insolubility 0.199 sanctity incredibleness 0.148 sanctity counter factuality 0.194 sanctity worldliness 0.146 sanctity constructiveness 0.189 sanctity factuality 0.141 sanctity unpopularity 0.185 sanctity factualness 0.141 sanctity unholiness 0.169 sanctity popularity 0.140 sanctity humanness 0.161 sanctity lawfulness 0.139 sanctity parental quality 0.161 sanctity unsatisfactoriness 0.139 sanctity particularity 0.161 sanctity finitude 0.136 sanctity inaccuracy 0.158 sanctity boundedness 0.136 sanctity ethnicity 0.155 sanctity finiteness 0.136 sanctity measurability 0.154 sanctity satisfactoriness 0.135 sanctity quantifiability 0.154 sanctity ordinariness 0.126 sanctity destructiveness 0.151 sanctity negativism 0.121 …… ………… …… sanctity nativeness 0.150 我们的方法提供了一个针对某一个中心词的按照相似度从高到低排列的词语的序列, , 同时我们可以区分出同一个词不同的词性的相似词语的序列。 这一点在英语信息检索中很有 价值。用户的 query 如果是一句话,那么我们就可以根据词语的不同词性进行检索或进行问 题扩展。比如,在 WordNet 中“doctor”有名词和动词两种词性,我们就可以依据不同的词 性来选择合适的相似词语序列进行检索或问题扩展。 名词“doctor” : 1. doctor, doc, physician, MD, Dr., medico -- (a licensed medical practitioner; quot;I felt so bad I went to see my doctorquot;) 2. Doctor of the Church, Doctor -- ((Roman Catholic Church) a title conferred on 33 saints who distinguished themselves through the othodoxy of their theological teaching; quot;the Doctors of
  • 6. the Church greatly influenced Christian thought down to the late Middle Agesquot;) 3. doctor -- (children take the roles of doctor or patient or nurse and pretend they are at the doctor's office; quot;the children explored each other's bodies by playing the game of doctorquot;) 4. doctor, Dr. -- (a person who holds Ph.D. degree from an academic institution; quot;she is a doctor of philosophy in physicsquot;) 表 2:doctor(名词)相似词语序列(部分) 中心词 相似词 相似度 模式 doctor doc 0.400 <N N> doctor physician 0.400 <N N> doctor medical practitioner 0.270 <N N> doctor medical man 0.270 <N N> doctor Doctor 0.250 <N N> doctor health professional 0.223 <N N> doctor health care provider 0.223 <N N> doctor medical specialist 0.209 <N N> doctor caregiver 0.186 <N N> doctor professional person 0.150 <N N> doctor professional 0.107 <N N> doctor grownup 0.099 <N N> doctor adult 0.083 <N N> doctor sawbones 0.081 <N N> doctor operating surgeon 0.081 <N N> doctor surgeon 0.081 <N N> doctor psychoanalyst 0.077 <N N> doctor alienist 0.077 <N N> doctor horse doctor 0.076 <N N> doctor pathologist 0.075 <N N> doctor diagnostician 0.075 <N N> doctor brain doctor 0.074 <N N> doctor neurologist 0.074 <N N> …… ………… …… …… (其中“模式”表示的是中心词和相似词的词性) 动词“doctor” : 1:sophisticate, doctor, doctor up -- (alter and make impure, as with the intention to deceive; quot;Sophisticate rose water with geraniolquot;) => adulterate, stretch, dilute, debase -- (corrupt, debase, or make impure by adding a foreign or inferior substance; often by replacing valuable ingredients with inferior ones; quot;adulterate liquorquot;) 2:doctor -- (give medical treatment to)=> treat, care for -- (provide treatment for; quot;The doctor treated my broken legquot;; quot;The nurses cared for the bomb victimsquot;; quot;The patient must be treated right away or she will diequot;; quot;Treat the infection with antibioticsquot;) 3: repair, mend, fix, bushel, doctor, furbish up, restore, touch on -- (restore by replacing a part or putting together what is torn or broken; quot;She repaired her TV setquot;; quot;Repair my shoes pleasequot;)=> better, improve, amend, ameliorate, meliorate -- (to make better; quot;The editor improved the
  • 7. manuscript with his changesquot; 表 3:doctor(动词)相似词语序列(部分) 中心词 相似词 相似度 模式 doctor doctor up 0.500 <V V> doctor adulterate 0.400 <V V> doctor Doctor 0.333 <V V> doctor adulterate 0.065 <V A> doctor sophisticate 0.047 <V V> doctor furbish up 0.040 <V V> doctor bushel 0.040 <V V> doctor repair 0.040 <V V> doctor sophisticate 0.040 <V N> doctor mend 0.032 <V V> doctor Dr. 0.032 <V N> doctor darn 0.031 <V V> doctor trouble-shoot 0.031 <V V> doctor sole 0.028 <V V> doctor reheel 0.028 <V V> doctor repoint 0.028 <V V> doctor resole 0.028 <V V> doctor revamp 0.027 <V V> doctor patch up 0.023 <V V> doctor restore 0.017 <V V> doctor fix 0.012 <V V> …… ………… …… …… (其中“模式”表示的是中心词和相似词的词性) 5 结论 对于自然语言处理,语义分析面临的首要任务就是词汇间语义关系的数量化,即选择合 适的方法和模型来描述语义关系。作为一个初步的研究,将词汇间的种种关系,映射为一个 表示词语相似程度的数值,并以这一数值来产生词语相似性的排列序列,以简化词汇语义间 复杂的难以把握的语义关系,是研究语义关系的一个切入点。作为汉语信息处理研究,我们 可以从英语自然语言处理中借鉴许多有益的方法和手段。汉语语义分析,归根结底依赖于一 个大型词汇概念网络的建立,依赖于语言知识的注入。在目前汉语语义分析领域,我们还没 有这样一个词汇概念网络。同时,我们在进行这样一个词汇概念网络的设计时应该考虑到应 用领域、处理的颗粒度等许多实际的问题,这样我们的设计结果和人力物力的投入才会是有 意义的。 参 考 文 献 [1] George A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller. Introduction to WordNet: An On-line Lexical Database[EB], Cognitive Science Laboratory Princeton University, 1993, 8. [2] Rada R. etc Development and application of a metric on semantic nets. IEEE Transactions on System, Man and
  • 8. Cybernetics, 1989 [3] Lee J.H. etc Information Retrieval based on conceptual distance in ISA hierarchies’, Journal of Documentation,1993(49) [4] Agirre E. and Rigau G. (1995), A proposal for word sense disambiguation using conceptual distance, in International Conference quot;Recent Advances in Natural Language Processingquot; RANLP'95, Tzigov Chark, Bulgaria,. [5] P.Brown etc Word sense disambiguation using tactical methods. In Proceedings of 29th Meeting of the Association for Computational Linguistics (ACL-91) ,1991 [6] Lillian Lee Similarity-Based Approaches to Natural Language Processing Ph.D. thesis. Harvard University Technical Report TR-11-97. [7] 于江生,俞士汶 中文概念词典的结构 中文信息学报 2002(4). [8] 胡俊峰,俞士汶 唐宋诗中词汇语义相似度的统计分析及应用 中文信息学报 2002(4). [9] 关毅,王晓龙 基于统计的汉语词汇间语义相似度计算 语言计算与基于内容的文本处理 清华大学出版 社 2003.8 [10] 刘群,李素建 基于《知网》的词汇语义相似度计算,第三届汉语词汇语义学研讨会,2002.5.