[發明專利]基于互聯網的術語定義辨析方法有效
| 申請號: | 201310206190.8 | 申請日: | 2013-05-29 |
| 公開(公告)號: | CN104216880B | 公開(公告)日: | 2017-06-16 |
| 發明(設計)人: | 呂學強;吳瑞紅 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 互聯網 術語 定義 辨析 方法 | ||
技術領域
本發明屬于自然語言處理領域,具體地說,是涉及一種基于互聯網的術語定義辨析方法。
背景技術
隨著Web2.0的蓬勃發展,數據呈爆炸式增長趨勢,一個術語具有多條定義的情況越來越多,術語定義不正規性、不準確性的問題越來越突出,為此對術語定義進行抽取和辨析顯得非常緊迫。
術語定義辨析是指對術語的多個定義進行比較,從中選取最能描述術語所指稱概念的定義的過程,它可以為術語定義抽取提供更準確的結果。目前還沒有人將術語定義辨析作為一個獨立的研究點提出來專門研究。在術語抽取方法,主要有以下方法:通過人工歸納術語定義的模板,利用術語定義模板獲取候選術語定義,再針對候選術語定義使用統計學的方法作進一步劃分提高準確率,或者用排序的方法選出得分較高的句子作為給定術語的定義。使用的匹配模板主要分為兩類:硬匹配模板和柔性模板,這兩類模板主要用于從語料庫中獲取候選定義,但是術語定義有的含有明確的模板,有的則沒有,這種方法獲取候選定義會導致召回率偏低。在使用的統計學方法中,包括了大多數已知的分類方法:K-臨近法、樸素貝葉斯法、支持向量機方法等。單純使用統計的方法準確率很低,而綜合了機器學習和模板匹配的方法準確率能得到一定提高,但仍然不高。例如,在針對斯拉夫語的實驗中,單純使用機器學習方法而不使用規則模式的時候,準確率最低只有不到 9%(正例:反例為 1:1),而綜合了規則模板和多分類器的方法也僅達到 20%的準確率。
本發明借鑒基于統計和模板匹配的術語定義抽取方法,術語定義辨析不等同于術語定義抽取,術語定義抽取是從大規模語料中抽取解析術語概念的句子,而術語定義辨析則是從術語的多條待辨析定義中選取最好定義,因此術語定義抽取應用模板匹配抽取候選術語定義的方法不能完全適用于術語定義辨析;對抽取的候選定義進行排序的思想可以借鑒到術語定義辨析,即對待辨析術語定義按照一定的策略進行排序。本發明借鑒術語定義抽取的思想,結合待辨析術語定義的特點,提出從百度百科和百度搜索構建參考釋義想法,總結術語定義模板,設計參考釋義和候選定義相似度計算方法,實現術語定義辨析,為術語定義辨析提供了一個有效的途徑。
發明內容
本發明的目的是提供一種基于互聯網的術語定義辨析方法,為術語定義辨析提供一種有效的方法,為了達到上述目的,本發明的方法包含的步驟如下:
步驟A:待辨析術語定義獲取
對于給定術語,若術語存在多條候選定義,則將該術語的所有候選定義作為待辨析定義。中國知網概念知識元庫中存有大量的術語及其定義,這些術語和定義主要來源于學術期刊文獻和工具書等,具有一定的權威性和參考意義。但是當查詢某個術語定義時,檢索出的單個術語定義往往會存在準確率低、斷章取義的現象。為此,本發明選取中國知網概念知識元庫中術語及定義作為辨析的對象。
步驟B:基于互聯網的參考釋義獲取
參考釋義是指最能反映術語所指稱概念的釋義。互聯網是個豐富的資源寶庫,它蘊含著大量的信息。而其中以搜索引擎所能獲取的知識最為實時、豐富、便捷,以百科知識庫所涵蓋的知識最為準確、全面,為此采用如下方式獲取參考釋義:
若百度百科中有該術語的定義,則取百度百科中的百度名片或百度百科簡介等概述性文本,作為該術語的參考釋義文本;若其在百度百科中沒有定義,則選取其在百度搜索引擎中,該術語搜索結果的前n條摘要作為該術語的參考釋義文本。
步驟C:術語定義的表示
術語定義由描述該術語所指稱概念的若干個句子(本發明中的句子指以中文標點符號分割形成的短句),按照一定的順序組成,其中每個句子中詞與詞之間通過一定的關系聯系在一起,且每個詞都有固定的詞性。由此,每個術語定義可以表示成:,n為該定義中所含句子總數,表示每條術語定義的第i個句子;
術語定義文本中第i個句子又可表示成一個五元組,其中:
,為表征句子意義的特征詞集合,h 為特征詞總數;
,表示狀態的集合,句子中每個詞的詞性為一個狀態,w 表示詞性的總數;
,表示句子中依存關系集合,如定中關系、并列關系、同位關系等,r 為句子中依存關系總數;
,表示特征詞與詞性之間的對應關系集合;
,表示特征詞與特征詞之間的依存關系映射集合。
將術語參考釋義和術語待辨析定義按照本發明的表示方法進行表示,以備后續處理。
步驟D:術語定義相似度計算
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310206190.8/2.html,轉載請聲明來源鉆瓜專利網。





