[發明專利]一種文本匹配方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010914259.2 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112052683A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 趙知緯;高維國 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06K9/62;G06F17/16;G06F17/18 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 武志峰 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 匹配 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種基于術語增強的文本匹配方法,其特征在于,包括:
獲取用戶問句以及待匹配文本,對所述用戶問句以及待匹配文本進行自然語言處理,分別得到問句特征詞集合QU和文本特征詞集合QC,并識別出所述問句特征詞集合QU和文本特征詞集合QC中的術語,構建術語集合T;
對所述問句特征詞集合QU和文本特征詞集合QC進行拼接,然后進行向量化處理,得到特征向量QE;以及對所述術語集合T進行向量化處理,得到術語向量TE;
對所述特征向量QE進行線性轉換得到:鍵矩陣K、查詢矩陣Q和值矩陣V,以及對所述術語向量TE進行線性轉換,得到矩陣KT;
計算所述矩陣KT與查詢矩陣Q的非歸一化權重矩陣AQT,然后對所述非歸一化權重矩陣AQT進行自我相乘以及歸一化處理得到多個子矩陣;
對所述多個子矩陣進行平均化處理,再進行歸一化處理得到影響矩陣
對所述鍵矩陣K和查詢矩陣Q進行矩陣乘法處理,得到自注意力矩陣A,然后利用所述自注意力矩陣A和影響矩陣計算得到自注意力模塊的輸出,再根據所述輸出對所述用戶問句與待匹配的文本進行匹配。
2.根據權利要求1所述的基于術語增強的文本匹配方法,其特征在于,所述獲取用戶問句以及待匹配文本,對所述用戶問句以及待匹配文本進行自然語言處理,分別得到問句特征詞集合QU和文本特征詞集合QC,并識別出所述問句特征詞集合QU和文本特征詞集合QC中的術語,構建術語集合T,包括:
獲取用戶問句以及待匹配文本;
對所述用戶問句以及待匹配文本進行自然語言處理,分別得到用戶問句中的所有特征詞和待匹配文本中的所有特征詞;
將用戶問句中的所有特征詞按順序構建為問句特征詞集合QU,將待匹配文本中的所有特征詞按順序構建為文本特征詞集合QC;
基于命名實體識別方法識別出所述問句特征詞集合QU和文本特征詞集合QC中的術語,構建術語集合T。
3.根據權利要求1所述的基于術語增強的文本匹配方法,其特征在于,所述對所述問句特征詞集合QU和文本特征詞集合QC進行拼接,然后進行向量化處理,得到特征向量QE;以及對所述術語集合T進行向量化處理,得到術語向量TE,包括:
將所述文本特征詞集合QC與問句特征詞集合QU進行拼接,并采用分隔符SEP進行分隔,得到拼接集合Q=[QC,SEP,QU];
通過embedding查詢,將所述拼接集合Q中的字符轉換為相應的向量,得到特征向量QE;
通過embedding查詢,將所述術語集合T中的字符轉換為相應的向量,得到術語向量TE。
4.根據權利要求1所述的基于術語增強的文本匹配方法,其特征在于,所述對所述特征向量QE進行線性轉換得到:鍵矩陣K、查詢矩陣Q和值矩陣V,以及對所述術語向量TE進行線性轉換,得到矩陣KT,包括:
利用已訓練的權重矩陣WK、WQ和WV分別與所述特征向量QE進行矩陣相乘,得到三個形狀相同的矩陣:鍵矩陣K、查詢矩陣Q和值矩陣V;
利用已訓練的權重矩陣WT與所述術語向量TE進行矩陣相乘,得到矩陣KT。
5.根據權利要求1所述的基于術語增強的文本匹配方法,其特征在于,所述計算所述矩陣KT與查詢矩陣Q的非歸一化權重矩陣AQT,然后對所述非歸一化權重矩陣AQT進行自我相乘以及歸一化處理得到多個子矩陣,包括:
按下式計算矩陣KT與查詢矩陣Q的非歸一化權重矩陣:
分別取非歸一化權重矩陣AQT中的每一行進行自我相乘,并進行歸一化處理得到數量與非歸一化權重矩陣AQT行數相同的多個子矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010914259.2/1.html,轉載請聲明來源鉆瓜專利網。





