[發明專利]一種改進的基于信息論的概念語義相似度計算方法在審
| 申請號: | 201610833571.2 | 申請日: | 2016-09-20 |
| 公開(公告)號: | CN106610941A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 金平艷 | 申請(專利權)人: | 四川用聯信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 基于 信息論 概念 語義 相似 計算方法 | ||
技術領域
本發明涉及語義網絡技術領域,具體涉及一種改進的基于信息論的概念語義相似度計算方法。
背景技術
現今,語義相似度計算被廣泛應用于信息檢索、語義web、自然語言處理等領域。由于本體能夠將領域中的各種概念和關系進行顯示地、形式化地表達,因此本體在概念語義相似度計算中發揮重要的作用。傳統的基于本體的概念語義相似度計算方法主要分為2種:一種是基于信息論的方法,該方法利用信息論來計算2個概念共享信息的程度,具有較高的理論嚴謹性,但是只能粗略地量化概念之間的語義相似度,不能實現概念語義相似度的細致區分;另一種方法是基于語義距離的方法。為了提高基于信息論方法求解概念語義相似度準確度,本發明提供了一種改進的基于信息論的概念語義相似度計算方法。
發明內容
針對于如何提高基于信息論方法求解概念語義相似度的準確度問題,本發明提供了一種改進的基于信息論的概念語義相似度計算方法。
為了解決上述問題,本發明是通過以下技術方案實現的:
步驟1:初始化本體概念領域模塊。
步驟2:求解其共同父節點在在樹狀層次結構中的信息量值I(pr)。
步驟3:分別求解兩本體概念(g1,g2)在樹狀層次結構中的信息量值I(g1)、I(g2)。
步驟4:基于信息量,可以得出兩本體概念間的語義相似度sim(g1,g2)。
本發明的有益效果是:
1、相比較傳統的基于信息論方法求解語義相似度,此方法準確度更高。
2、此計算語義相似度的方法在量化概念上更接近專家的經驗值。
3、更好的提高了本體推理的效果。
4、具有更廣泛的應用研究價值。
附圖說明
圖1為一種改進的基于信息論的概念語義相似度計算方法結構流程圖。
圖2為本體概念領域模塊語義樹形圖。
具體實施方式
為了提高基于信息論方法求解概念語義相似度的準確度問題,結合圖1對本發明進行了詳細說明,其具體實施步驟如下:
步驟1:初始化本體概念領域模塊。
步驟2:分別求解其共同父節點在在樹狀層次結構中的信息量值I(pr),其具體計算過程如下:
基于信息內容的計算相似度方法主要是通過衡量概念所包含的信息量來計算相似度。概念是對其祖先節點的繼承,是祖先節點的又一次細化,所以可通過祖先節點包含的信息量來衡量兩個概念的共享信息。
求解其共同父節點在樹狀層次結構中的信息量值I(pr)
根據圖2,得出兩本體概念(g1,g2)共同父節點在樹狀層次結構中每層出現的概率值p(pr)
p(pr)=(p1(pr),p2(pr),…,pk(pr))
上式k為兩本體概念(g1,g2)共同父節點在樹狀層次結構中的層數。
E[p(pr)]為兩本體概念(g1,g2)共同父節點在樹狀層次結構中的概率均值。
步驟3:分別求解兩本體概念(g1,g2)在樹狀層次結構中的信息量值I(g1)、I(g2),其具體求解過程如下:
求解兩本體概念的在樹狀層次結構中的信息量值I(g1)、I(g2)
同理,根據圖2,得出兩本體概念(g1,g2)在樹狀層次結構中每層的概率值p(g1)、p(g2)
p(g1)=(p1(g1),p2(g1),…,pi(g1))
p(g2)=(p1(g2),p2(g2),…,pj(g2))
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川用聯信息技術有限公司,未經四川用聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610833571.2/2.html,轉載請聲明來源鉆瓜專利網。





