[發明專利]一種文本匹配方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010914259.2 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112052683A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 趙知緯;高維國 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06K9/62;G06F17/16;G06F17/18 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 武志峰 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 匹配 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了一種文本匹配方法、裝置、計算機設備及存儲介質,涉及人工智能技術領域,方法包括:構建問句特征詞集合QU和文本特征詞集合QC,以及術語集合T;進行向量化處理得到特征向量QE以及術語向量TE;進行線性轉換得到鍵矩陣K、查詢矩陣Q和值矩陣V,以及矩陣KT;計算非歸一化權重矩陣AQT,然后進行自我相乘以及歸一化處理得到多個子矩陣;對所述多個子矩陣進行平均化處理,再進行歸一化處理得到影響矩陣對所述鍵矩陣K和查詢矩陣Q進行矩陣乘法,得到自注意力矩陣A,然后計算得到自注意力模塊的輸出,再根據所述輸出進行匹配。本發明實現著重于已知的術語之間的匹配,減少非術語之間的匹配,達到提高匹配準確度的效果。
技術領域
本發明涉及人工智能技術領域,特別涉及一種文本匹配方法、裝置、計算機設備及存儲介質。
背景技術
近年來,基于transformer(Google團隊在2017年提出的一種NLP經典模型)架構和海量數據的BERT(Bidirectional Encoder Representation from Transformers和基于Transformer的雙向編碼器表征)模型在各種NLP(自然語言處理)應用中大放光彩。BERT本身支持兩段文本輸入的設計使得其能夠很容易地應用與文本匹配任務。在智能問答的實際應用中,對每個用戶問句來說,不同的詞或短語,其重要性不同,這些比較重要的詞、短語稱為術語,往往與實際業務相關。
但現有的處理方法,并未融合術語的重要性,比如用戶問句為“XX公司現在有多少員工”,待匹配文本為“XX公司的薪酬福利體系是什么樣的”,那么兩者之間的“XX”一詞也會有較大的注意力權重。而對待匹配文本來說,匹配上“薪酬”或者“福利”遠比匹配上“XX”重要,故現有技術中的文本匹配方法在準確性方面還有待提高。
發明內容
本發明的目的是提供一種文本匹配方法、裝置、計算機設備及存儲介質,旨在解決現有文本匹配技術在準確性方面有待提高的問題。
第一方面,本發明實施例提供一種基于術語增強的文本匹配方法,其包括:
獲取用戶問句以及待匹配文本,對所述用戶問句以及待匹配文本進行自然語言處理,分別得到問句特征詞集合QU和文本特征詞集合QC,并識別出所述問句特征詞集合QU和文本特征詞集合QC中的術語,構建術語集合T;
對所述問句特征詞集合QU和文本特征詞集合QC進行拼接,然后進行向量化處理,得到特征向量QE;以及對所述術語集合T進行向量化處理,得到術語向量TE;
對所述特征向量QE進行線性轉換得到:鍵矩陣K、查詢矩陣Q和值矩陣V,以及對所述術語向量TE進行線性轉換,得到矩陣KT;
計算所述矩陣KT與查詢矩陣Q的非歸一化權重矩陣AQT,然后對所述非歸一化權重矩陣AQT進行自我相乘以及歸一化處理得到多個子矩陣;
對所述多個子矩陣進行平均化處理,再進行歸一化處理得到影響矩陣
對所述鍵矩陣K和查詢矩陣Q進行矩陣乘法處理,得到自注意力矩陣A,然后利用所述自注意力矩陣A和影響矩陣計算得到自注意力模塊的輸出,再根據所述輸出對所述用戶問句與待匹配的文本進行匹配。
第二方面,本發明實施例提供一種基于術語增強的文本匹配裝置,其包括:
集合構建單元,用于獲取用戶問句以及待匹配文本,對所述用戶問句以及待匹配文本進行自然語言處理,分別得到問句特征詞集合QU和文本特征詞集合QC,并識別出所述問句特征詞集合QU和文本特征詞集合QC中的術語,構建術語集合T;
向量化單元,用于對所述問句特征詞集合QU和文本特征詞集合QC進行拼接,然后進行向量化處理,得到特征向量QE;以及對所述術語集合T進行向量化處理,得到術語向量TE;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010914259.2/2.html,轉載請聲明來源鉆瓜專利網。





