[發明專利]一種實體對齊方法、裝置、設備及介質有效
| 申請號: | 201911040304.X | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110795572B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 王策;杜東 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 聶秀娜 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 對齊 方法 裝置 設備 介質 | ||
1.一種實體對齊方法,其特征在于,包括:
獲取所有實體的屬性信息,所述屬性信息為與所述實體相關的文本信息;
對所述屬性信息進行切詞,得到單詞集合;
獲取所述單詞集合中各個單詞的詞向量,得到詞向量集合;
分別獲取兩個待比較實體各自的詞向量集合;
根據所述兩個待比較實體的詞向量集合之間各個詞向量的向量內積的值得到第一矩陣;
根據所述第一矩陣獲取所述兩個待比較實體之間各個單詞的單詞相似值;
將所述兩個待比較實體各自的單詞相似值相加,得到兩個待比較實體各自的文本屬性相似值;
通過歸一化算法將所述兩個待比較實體各自的文本屬性相似值轉化為文本屬性值向量;
根據每個所述實體所包含文本的所述文本屬性值向量,獲取每個實體的實體相似度向量;
判定所述實體相似度向量的相似度高于預設值的兩個實體為相似實體,以實現實體對齊。
2.根據權利要求1所述的方法,其特征在于,所述分別獲取兩個待比較實體各自的詞向量集合,包括:
獲取第一實體的第一詞向量集合,所述第一詞向量集合中包括u1[1]、u1[2]至u1[m]的m個詞向量;
獲取第二實體的第二詞向量集合,所述第二詞向量集合中包括u2[1]、u2[2]至u2[k]的k個詞向量;
所述根據所述兩個待比較實體的詞向量集合之間各個詞向量的向量內積的值得到第一矩陣,包括:
計算所述第一詞向量集合與所述第二詞向量集合的向量內積,得到m×k的矩陣W,其中,所述矩陣W中的元素W[i][j]等于向量u1[i]和向量u2[j]的第一cos值,所述u1[i]為所述第一詞向量集合中的一個向量所述i為大于等于1小于等于m的任意一個正整數,所述u2[j]為所述第二詞向量集合中的一個向量,所述j為大于等于1小于等于k的任意一個正整數。
3.根據權利要求2所述的方法,其特征在于,所述根據所述第一矩陣獲取所述兩個待比較實體之間各個單詞的單詞相似值,包括:
獲取所述第一詞向量集合各個詞向量與所述第二詞向量集合中各個詞向量的上下文相似度b1[n],其中,所述n大于1小于k,所述b1[n]=W[n][1]+W[n][2]+…+W[n][k];
獲取所述第二詞向量集合各個詞向量與所述第一詞向量集合中各個詞向量的上下文相似度b2[r],其中,所述r大于1小于m,所述b2[r]=W[r][1]+W[r][2]+…+W[r][m]。
4.根據權利要求3所述的方法,其特征在于,所述根據所述第一矩陣獲取所述兩個待比較實體之間各個單詞的單詞相似值,包括:
獲取所述第一詞向量集合各個詞向量與所述第二詞向量集合中各個詞向量的上下文相似度b1[n],其中,所述n大于1小于k,所述b1[n]=W[n][1]*u2[1]+W[n][2]*u2[2]+…+W[n][k]*u2[k];
獲取所述第二詞向量集合各個詞向量與所述第一詞向量集合中各個詞向量的上下文相似度b2[r],其中,所述r大于1小于m,所述b2[r]=W[r][1]*u1[1]+W[r][2]*u1[2]+…+W[r][m]*u1[m]。
5.根據權利要求3或4所述的方法,其特征在于,所述根據所述第一矩陣獲取所述兩個待比較實體之間各個單詞的單詞相似值,還包括:
分別比較所述第一詞向量集合中各個單詞的所述u1[i]與所述b1[n]的大小,在一個詞向量中,若所述u1[i]大于所述b1[n],輸出當前單詞對應的單詞相似值為1,若u1[i]小于或等于所述b1[n],輸處當前單詞對應的單詞相似值為0;
分別比較所述第二詞向量集合中各個單詞的所述u2[j]與所述b2[r]的大小,在一個詞向量中,若所述u2[j]大于所述b2[r],輸出當前單詞對應的單詞相似值為1,若u2[j]小于或等于所述b2[r],輸處當前單詞對應的單詞相似值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911040304.X/1.html,轉載請聲明來源鉆瓜專利網。





