[發明專利]文本相關度的確定方法、裝置、存儲介質及電子設備在審
| 申請號: | 202010350443.9 | 申請日: | 2020-04-28 |
| 公開(公告)號: | CN111553163A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 徐也;常景冬;邵一峰;鄒鵬飛;劉艾婷;荊寧;張紅林 | 申請(專利權)人: | 騰訊科技(武漢)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/36;G06N5/02;G06K9/62 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 汪阮磊 |
| 地址: | 430000 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相關 確定 方法 裝置 存儲 介質 電子設備 | ||
1.一種文本相關度的確定方法,其特征在于,包括:
基于預設知識庫確定與第一文本關聯的第一組實體和與第二文本關聯的第二組實體,所述預設知識庫包括由實體、實體之間的關系及實體屬性構成的知識表示;
根據所述知識表示確定所述第一組實體與所述第二組實體之間的實體相關度;
根據所述第一文本中每個單詞之間的關聯關系、所述第二文本中每個單詞之間的關聯關系以及所述第一文本中單詞與所述第二文本中單詞之間的關聯關系,確定所述第一文本和所述第二文本中每一單詞關于其他單詞的注意力值,其中,所述注意力值用于反映所述第一文本和所述第二文本中每一單詞對其他單詞的關注度;
至少根據所述注意力值和所述實體相關度,確定所述第一文本與所述第二文本的文本相關度。
2.根據權利要求1所述的文本相關度確定方法,其特征在于,所述根據所述第一文本中每個單詞之間的關聯關系、所述第二文本中每個單詞之間的關聯關系以及所述第一文本中單詞與所述第二文本中單詞之間的關聯關系,確定所述第一文本和所述第二文本中每一單詞關于其他單詞的注意力值,包括:
根據所述第一文本中每個單詞之間的關聯關系、及所述第一文本中單詞與所述第二文本中單詞之間的關聯關系,計算所述第一文本中每個單詞與其他單詞之間的相關度;
根據所述第二文本中每個單詞之間的關聯關系、及所述第一文本中單詞與所述第二文本中單詞之間的關聯關系,計算所述第二文本中每個單詞與其他單詞之間的相關度;
根據所述第一文本中每個單詞與其他單詞之間的相關度、及所述第二文本中每個單詞與其他單詞之間的相關度,確定所述第一文本和所述第二文本中每一單詞關于其他單詞的注意力值。
3.根據權利要求2所述的文本相關度確定方法,其特征在于,還包括:
分別構建第一文本對應的特征矩陣以及第二文本對應的特征矩陣,得到第一特征矩陣和第二特征矩陣;
將所述第一特征矩陣和所述第二特征矩陣進行拼接,得到拼接矩陣;
所述根據所述第一文本中每個單詞與其他單詞之間的相關度、及所述第二文本中每個單詞與其他單詞之間的相關度,確定所述第一文本和所述第二文本中每一單詞關于其他單詞的注意力值,包括:
對所述第一文本中每個單詞與其他單詞之間的相關度、及所述第二文本中每個單詞與其他單詞之間的相關度進行歸一化處理;
根據歸一化處理后的相關度對所述拼接矩陣加權處理,得到加權后矩陣;基于所述加權后矩陣確定所述第一文本和所述第二文本中每一單詞關于其他單詞的注意力值。
4.根據權利要求3所述的文本相關度確定方法,其特征在于,所述分別構建第一文本對應的特征矩陣以及第二文本對應的特征矩陣,得到第一特征矩陣和第二特征矩陣,包括:
對第一文本和第二文本進行分詞處理,得到所述第一文本關聯的第一組單詞和所述第二文本關聯的第二組單詞;
基于所述第一組單詞中每一單詞、及每一單詞在第一文本中的位置,構建所述第一組單詞中每一單詞的第一向量表示;
基于所述第二組單詞中每一單詞、及每一單詞在第二文本中的位置,構建所述第二組單詞中每一單詞的第二向量表示;
至少根據構建的第一向量表示確定第一特征矩陣、以及至少根據構建的第二向量表示確定第二特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(武漢)有限公司,未經騰訊科技(武漢)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010350443.9/1.html,轉載請聲明來源鉆瓜專利網。





