[發(fā)明專利]一種基于改進WMD算法的實體對齊方法有效
| 申請?zhí)枺?/td> | 201910027346.3 | 申請日: | 2019-01-11 |
| 公開(公告)號: | CN109902144B | 公開(公告)日: | 2020-01-31 |
| 發(fā)明(設計)人: | 姜明;聞濤;張旻;湯景凡;滕海濱;何杰成 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 33240 杭州君度專利代理事務所(特殊普通合伙) | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 屬性相似度 摘要文本 計算實體 對齊 相似度 分詞 權重 算法 編輯距離算法 相似度計算 實數向量 算法計算 綜合判斷 不一致 詞向量 停用詞 低維 消岐 改進 轉化 | ||
本發(fā)明是一種基于改進WMD算法的實體對齊方法。本發(fā)明步驟如下:獲取同名百科實體對,計算實體對之間的屬性相似度;計算實體間的摘要文本相似度;通過屬性相似度和摘要文本相似度綜合判斷完成實體對齊。屬性相似度計算包括:規(guī)范實體之對間屬性名不一致的情況,將實體對的屬性值歸一單位化,通過編輯距離算法計算實體對之間的屬性相似度。摘要文本相似度計算包括:對摘要文本分詞并除去停用詞,使用TextRank算法計算每個詞的詞權重,通過預訓練好的word2vec模型,將分詞后的摘要文本轉化為詞的分布式低維實數向量表示,將詞向量和計算好的單個詞權重作為參數。本發(fā)明有效降低了單純依賴屬性相似度來進行實體消岐工作帶來的誤差。
技術領域
本發(fā)明屬于自然語言處理技術領域,涉及的實體對齊方法,具體來講是一種基于改進WMD算法的實體對齊方法。
背景技術
為促進數據的語義化,國內外的研究機構和企業(yè)已經構建了豐富多樣的知識庫。這些知識庫在數據挖掘,語義分析,智能問答系統(tǒng)等應用中發(fā)揮了重要的作用。但僅僅使用單一知識庫會導致信息覆蓋面低,描述不完整的問題。在構建中文知識庫中,可以通過多個知識庫的融合,有效解決信息缺失的問題,而有效的實體對齊技術正是數據融合的關鍵所在。實體對齊的目的是判別來自不同數據源中的實體是否指向現實世界的同一對象。通過有效的實體對齊技術,我們可以從網絡百科實體頁面中抽取實體,進而構建一個高質量的中文百科知識庫。
實體對齊實質上是要解決多源知識庫之間異構問題,目前知識庫的異構問題主要體現在兩個方面(1)體系結構差異,不同知識庫的結構存在較大差異;(2)內容差異,即不同知識庫中所填充的實體不同,相同的實體名可能指代多個對象。但中文知識庫資源缺乏完整的體系結構,不適用應用以上方法。在內容差異方面的對齊工作較少,多為基于實體的屬性信息。但由于百科數據屬于用戶原創(chuàng),數據質量參差不齊,僅通過屬性信息難以判定是否為同一實體。
發(fā)明內容
本發(fā)明對傳統(tǒng)實習對齊方法在中文百科實體上正確率不高的問題,公開一種基于改進WMD算法的實體對齊方法,一種通過計算編輯距離和改進的WMD距離進而完成中文百科實體對齊方法。
一種基于改進WMD算法的實體對齊方法,按照如下步驟進行:
步驟(1)計算百科實體之間的屬性相似度。
步驟(2)計算百科實體間的摘要文本相似度。
步驟(3)通過屬性相似度和摘要文本相似度綜合判斷實體是否能夠消岐。
步驟1所述的計算百科實體之間的屬性相似度,過程如下:
1.1首先統(tǒng)一屬性的名稱,采用人工構建屬性映射規(guī)則的方法,通過人工對比校驗,構建了多個類別的屬性名映射表,進而規(guī)范屬性名稱不一致的情況。
1.2其次統(tǒng)一屬性的屬性值,通過統(tǒng)計分析,建立屬性值歸一化規(guī)則,對屬性值進行歸一化。
1.3對于實體Ea,Eb,其屬性名稱集合分別為: Propertya={pa1,pa2,...,Pam},Propertyb={pb1,pb2,...,pbn}。屬性值集合分別為 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910027346.3/2.html,轉載請聲明來源鉆瓜專利網。





