[發明專利]一種基于改進WMD算法的實體對齊方法有效
| 申請號: | 201910027346.3 | 申請日: | 2019-01-11 |
| 公開(公告)號: | CN109902144B | 公開(公告)日: | 2020-01-31 |
| 發明(設計)人: | 姜明;聞濤;張旻;湯景凡;滕海濱;何杰成 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 33240 杭州君度專利代理事務所(特殊普通合伙) | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 屬性相似度 摘要文本 計算實體 對齊 相似度 分詞 權重 算法 編輯距離算法 相似度計算 實數向量 算法計算 綜合判斷 不一致 詞向量 停用詞 低維 消岐 改進 轉化 | ||
1.一種基于改進WMD算法的實體對齊方法,其特征在于包括如下步驟:
步驟(1)計算百科實體之間的屬性相似度;
步驟(2)計算百科實體間的摘要文本相似度;
步驟(3)通過屬性相似度和摘要文本相似度綜合判斷實體是否能夠消岐,
步驟1所述的計算百科實體之間的屬性相似度,過程如下:
1.1統一屬性的名稱,采用人工構建屬性映射規則的方法,通過人工對比校驗,構建多個類別的屬性名映射表,進而規范屬性名稱不一致的情況;
1.2統一屬性的屬性值,通過統計分析,建立屬性值歸一化規則,對屬性值進行歸一化;
1.3對于實體Ea,Eb,其屬性名稱集合分別為:Propertya={pa1,pa2,...,pam},Propertyb={pb1,pb2,...,pbn};屬性值集合分別為Valuea={va1,va2,...,vam},Valueb={vb1,vb2,...,vbn};
1.4對于公有屬性Pi∈CommonPropertty(Ea,Eb),對應著相同屬性名稱的Pam∈Propertya,Pbn∈Propertyb;其中Pam的屬性值為Vam,Pbn的屬性值為Vbn,則百科實體的屬性相似度計算公式為:
其中:
T=|Propretya∩Propretyb|;
T為公共屬性交集中的元素個數,ED(Vax,Vby)為實體屬性值的編輯距離,max{len(Vax),len(Vby)}為屬性值的最大字符長度,
步驟2所述的計算百科實體之間摘要文本相似度的步驟如下:
2.1采用TextRank算法對百科實體的摘要文本計算詞權重,其單個詞權重WS(Vi)計算公式為:
其中,In(Vi)代表指向該詞Vi的集合,Out(Vj)代表Vi指向的詞集合,d為阻尼系數,設置為0.85;sij為詞Vi到Vj邊的權重,sjk為詞Vj到Vk邊的權重;
2.2通過預訓練好的word2vec模型,將分詞后的百科實體的摘要文本轉化為詞的分布式低維實數向量表示,將一個詞的語義轉化為另外一個詞的語義的代價定義為Wordtravel cost,詞Vi,Vj之間的word travel cost定義為:
C(i,j)=||xi-xj||2
其中,xi,xj分別對應詞Vi,Vj所對應的Word2Vec詞向量;
2.3在計算文檔D0,D1的距離時,WMD會嘗試尋找最小的代價將D0中的所有單詞轉化為D1中的單詞;D0中的詞Vi的權重為WS(Vi),D1中的詞Vj的權重為WS(Vj),且Vi,Vj∈{V0,V1...Vn};設T∈Rn×n為低維系數矩陣,其中Tij為詞語Vi到詞語Vj的轉移量,則WMD的優化表達式為:
其中:
2.4通過以上計算,百科實體的摘要文本相似度計算公式為:
2.根據權利要求1所述的一種基于改進WMD算法的實體對齊方法,其特征在于步驟3通過屬性相似度和摘要文本相似度綜合判斷的步驟如下包括:
3.1將計算得出的屬性相似度和預設定的實體屬性相似度上限閾值ν和下限閾值ω進行比較,如大于等于上限閾值ν,則對齊實體,輸出新的實體;若相似度在在上限閾值ν和下限閾值ω之間或等于下限閾值ω,則轉向步驟3.2;否則認為該實體對之間不需要對齊工作;
3.2將摘要文本相似度和預設定的摘要文本相似度閾值λ進行比較,若大于等于閾值λ,則對齊實體,輸出新的實體;否則判定這兩個實體無關。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910027346.3/1.html,轉載請聲明來源鉆瓜專利網。





