[發明專利]一種語義關系密切度的計算方法有效
| 申請號: | 201410472805.6 | 申請日: | 2014-09-16 |
| 公開(公告)號: | CN104317783B | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 張輝;陳勇;劉瑞 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京汲智翼成知識產權代理事務所(普通合伙)11381 | 代理人: | 陳曦,符浩 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 關系 密切 計算方法 | ||
技術領域
本發明涉及一種語義關系密切度的計算方法,尤其涉及一種用于量化計算詞語之間語義關系密切度的方法,屬于自然語言處理技術領域。
背景技術
互聯網的高速發展將人類帶入了信息大爆炸的社會。面對互聯網的海量信息,人們常常應用搜索引擎來獲取和定位有效信息。當前廣泛使用的商業搜索引擎大多采用基于關鍵詞匹配及布爾運算相結合的信息檢索模型,檢索關鍵詞成為用戶與檢索系統間最重要的溝通渠道。但是,僅匹配用戶輸入的少量關鍵詞并不能得到令人滿意的檢索結果。
為得到更好的檢索結果,查詢擴展(query expansion,簡稱QE)的策略被廣泛采用。QE的基本思想是通過對關鍵詞語義、邏輯等方面的再擴展以得到關鍵詞擴展集合,通過檢索擴展集合得到更多的檢索結果,以提高系統的查全率。然而,QE在帶來更優查全率的同時,也帶來了如同義詞問題(synonyms)、歧義問題(polysemy)等諸多損害檢索查準率及關注度的問題。因此,如何獲得詞語間更好的語義關系,使得在擴展查詢的同時保證檢索準確度已成為當前信息檢索領域的重要課題。
近年來,詞語間語義關系的研究主要分為基于知識和基于統計兩個方向:前者是利用構建好的知識庫,通過知識庫約定的概念關系計算詞語間的語義相似度,如中文語義知識庫知網HowNet、同義詞詞林、英文的WordNet等;后者是通過對大規模語料庫的統計分析,將詞語上下文信息的概率分布作為詞語間語義關系的計算參照。
基于構建概念間語義關系知識庫的實現方法是通過人工手段把詞語組織成為詞匯層次,構造以一定的語義知識為基礎的知識庫,該方法簡單、直觀,但缺點也非常明顯。首先,基于構建概念間語義關系知識庫的構造過程是一項規模浩大的系統工程。其次,知識庫的構建容易受到人的主觀意識影響,處理海量信息時也無法窮盡所有的語義關系,特別是難以有效涵蓋特殊領域和新興領域的專有詞匯。于是,基于大規模語料庫統計,將詞語上下文信息的概率分布作為詞語間語義關系的計算參照,從而得到詞語之間的關系密切程度的方法越來越受到人們的青睞,它能夠對詞語間語義關系進行比較精確和有效的度量。但是如何有效地獲取詞語間的語義關系,并沒有得到很好地解決。
發明內容
本發明所要解決的技術問題在于提供一種語義關系密切度的計算方法。
為實現上述的發明目的,本發明采用下述的技術方案:
一種語義關系密切度的計算方法,包括如下步驟:
S1,對文檔進行分詞處理,并對處理后獲得的詞語集合進行過濾,過濾掉非名詞以及無實意的常用名詞;
S2,將過濾后的詞集根據在文本中的位置信息進行加權處理,計算其共現頻度權值;
S3,根據兩個詞語之間的平均權值,計算語義關系密切度。
其中較優地,文本中的位置信息包含詞語之間相隔的詞數和分隔符組成的懲罰距離。
其中較優地,在S2中,所述共現頻度權值通過公式CoCount(K,W)=e-μ*wdd(dis,flag)求得;
其中,K是特征詞,W是目標詞,e為自然常數,μ為正常數,用于調節曲線的平滑度,wdd(dis,flag)表示兩個詞語之間的距離權值函數;
其中,dis表示K和W之間相距離的詞數;flag表示詞語K和W之間因段落及標點符號形成的懲罰值之和。
其中較優地,所述兩個詞語之間的距離權值函數wdd(dis,flag)通過公式求得;
其中,left,right是特征詞的作用范圍,L是調節權值遞減速度的參數。
其中較優地,在S2中,根據詞語間所述標點符號的不同設置不同的懲罰值。
其中較優地,在S3中,所述兩個詞語之間的語義關系密切度值,通過公式求得;
其中,Count(K)為在文檔集合中出現特征詞K的次數,left為限定共現詞的左邊作用范圍;right為限定共現詞的右邊作用范圍。
本發明提供的語義關系密切度計算方法,通過將過濾后的詞集根據在文本中的位置信息進行加權處理,計算其共現頻度權值,充分考慮了兩個詞語間的距離以及其上下文關系,根據兩個詞語之間的平均權值,計算語義關系密切度,規避掉概率分布可能出現的特殊情況,能夠有效地判斷詞語之間的相關性,提高了詞語相關性判斷的準確性。
附圖說明
圖1為本發明所提供的語義關系密切度計算方法的流程圖。
具體實施方式
下面結合附圖和具體實施例對本發明的技術內容作進一步的詳細說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410472805.6/2.html,轉載請聲明來源鉆瓜專利網。





