[發明專利]詞義消歧方法和系統無效
| 申請號: | 200910129454.8 | 申請日: | 2009-03-20 |
| 公開(公告)號: | CN101840397A | 公開(公告)日: | 2010-09-22 |
| 發明(設計)人: | 李建強;趙彧;劉博 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 李曉冬;南霆 |
| 地址: | 100007 北京市東城區東四十*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞義 方法 系統 | ||
技術領域
本發明一般地涉及自然語言處理,更具體而言,涉及詞義理解以及詞義消歧方法和系統。
背景技術
所謂詞義消歧就是要在特定的上下文環境中確定多義詞的詞義,其在自然語言處理、信息檢索、信息抽取、本體集成等領域都有廣泛的應用。
目前的詞義消歧方法都是針對文本或句子中的目標詞匯而進行的。一般而言,目標詞匯的文本上下文環境構成區分詞義的特征空間,具體可能包括目標詞匯的臨近詞語、固定搭配、或根據句子結構分析而獲得的其他語法特征。
已有的詞義消歧方法主要利用來源于文本上下文環境的語法特征來區分詞義,當應用這些方法對出現在本體或者具有層次結構的概念/類別中的目標詞匯進行詞義消歧時,不能取得理想的效果。下面簡要介紹目前現有技術中已經存在的一些相關技術。
例如,在Kilgarriff,A.、Rosenzweig,J.等人于2000年發表的文章“Framework?and?Results?for?English?SENSEVAL,Computers?and?theHumanities,34”(第15-48頁)中列舉了一些詞義消歧方法,他們主要首先基于語法分析從目標詞匯的文本上下文結構中獲得相應的語法特征(主要包括和目標詞匯在一定距離窗口之內的并現詞匯,固定搭配,主謂賓結構分析等),進而通過統計方法達到辨別目標詞匯詞義的目的。
另外,日本專利JP2002-082943描述了一種針對出現在網頁中的命名實體進行語義消歧方法。其獨特之處在于除了利用目標詞匯所在的網頁中出現的語法特征之外,出現在和目標詞匯所在網頁具有超級鏈接關系的網頁中的語法特征也被考慮進來,實現命名實體的語義消歧。圖1示出該詞義消歧系統的結構框圖,而圖2示出利用圖1所示系統進行詞義消歧的一個示意性實例。
如圖1所示,該詞義消歧系統100由兩部分組成,即提供存儲的存儲部件和作為主要處理部件的基于文本上下文的詞義消歧部件。基于文本上下文的詞義消歧部件包括詞匯輸入裝置101、文本上下文抽取裝置102、基于文本上下文的詞義打分裝置103以及詞義選擇裝置104。參考圖2所示示例,文本上下文抽取裝置102在進行文本上下文抽取時,除了考慮目標詞匯“bass”所在網頁的語法特征之外,還將與目標詞匯所在網頁具有超級鏈接關系的網頁中的語法特征也考慮進來,從而得到完整的文本上下文。例如如圖2所示,得到共現詞匯“go”、“fish”和“sea”。在得到共現詞匯之后,基于文本上下文的詞義打分裝置103根據共現詞匯對目標詞匯“bass”在詞典中給出的各種詞義進行打分。例如,基于文本上下文的詞義打分裝置103可以通過計算文本上下文中所有共現詞匯與詞典中每個詞義定義之間的相似度來作為詞義得分。然后,詞義選擇裝置104可以選擇具有較高相似度得分的詞義作為正確詞義。例如,在圖2所示示例中,詞義選擇裝置104選擇目標詞匯“bass”的詞義“一種魚”作為最終詞義。這種詞義消歧方法的缺陷在于,從文本上下文中獲得的所有共現詞匯在最終的詞義打分中具有相同的權重,而事實上共現詞匯“go”對詞義打分沒有很強的貢獻,甚至對最終的詞義消歧結果具有負面作用。但是,不同共現詞匯對于詞義消歧結果的影響并未被考慮進來。
如前所述,目前現有技術中的詞義消歧方法主要利用來自目標詞匯的文本上下文中的語法特征進行詞義的辨別。如果利用這些方法對本體和層次性分類結構中的目標詞匯進行語義消歧,由于他們只考慮目標詞匯的語法特征,而本體或層次性分類模式中所蘊含的大量的語義特征沒有被利用,因此造成詞義消歧效果和精度不理想。
發明內容
本發明旨在解決上述現有詞義消歧方法中存在的諸多問題。根據本發明的原理,首先從本體或層次化分類模式中確定目標詞匯所在的概念,以及此概念與其他概念的各種語義關系等(即,抽取概念上下文)。然后,根據目標詞匯的概念上下文所蘊含的語義特征針對目標詞匯在詞義字典中的詞義進行打分排序,其打分排序的結果作為詞義消歧的主要依據。
根據本發明第一方面,提供了一種利用語義特征進行詞義消歧的方法,其包括:輸入目標詞匯,其具有多種詞義;從相關本體抽取所述目標詞匯所在的概念以及在本體中的概念上下文;基于所述概念上下文對所述目標詞匯的各種詞義進行打分;以及根據所述打分結果選擇所述目標詞匯的適當詞義。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910129454.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:大水面無圍欄規模生態養殖中華鱉的方法
- 下一篇:共享上網用戶識別方法及裝置





