[發(fā)明專利]基于預訓練模型的文本匹配方法、裝置、終端及存儲介質(zhì)在審

申請?zhí)枺?/td>	202010859297.2	申請日：	2020-08-24
公開（公告）號：	CN112000805A	公開（公告）日：	2020-11-27
發(fā)明（設計）人：	于溦	申請（專利權(quán)）人：	平安國際智慧城市科技股份有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/335;G06F16/332;G06F40/284;G06F40/35
代理公司：	深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334	代理人：	劉麗華
地址：	518000 廣東省深圳市前海深港合***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于訓練模型文本匹配方法裝置終端存儲介質(zhì)
鉆瓜網(wǎng) 技術展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及人工智能技術領域，提供一種基于預訓練模型的文本匹配方法、裝置、終端及存儲介質(zhì)，包括：獲取預訓練模型BERT并對所述預訓練模型BERT進行參數(shù)微調(diào)得到參數(shù)共享的BERT模型；獲取目標文本并抽取所述目標文本的第一詞嵌入向量；將所述第一詞嵌入向量映射到低維詞嵌入空間得到第二詞嵌入向量；輸入所述第二詞嵌入向量至所述參數(shù)共享的BERT模型中，并獲取所述參數(shù)共享的BERT模型輸出的目標向量；根據(jù)所述目標向量從預設文本語料庫中匹配出最近似文本。本發(fā)明能夠快速且準確的匹配出最近似的文本。此外，本發(fā)明還涉及區(qū)塊鏈技術領域，所述參數(shù)共享的BERT模型可存儲于區(qū)塊鏈節(jié)點中。

技術領域

本發(fā)明涉及人工智能技術領域，具體涉及一種基于預訓練模型的文本匹配方法、裝置、終端及存儲介質(zhì)。

背景技術

文本匹配是自然語言領域中一個很常見的任務，是大部分應用系統(tǒng)，比如智能問答、搜索引擎、知識檢索等的核心模塊。

目前文本匹配技術主要是基于關鍵詞匹配和詞嵌入的方式，由于一個詞語可能有多種表述方式，純粹基于關鍵詞匹配并不能很好地匹配用戶的輸入，匹配精確度差，而使用詞嵌入的方式，由于訓練模型時參數(shù)較多，導致訓練時間較長，對硬件的配置要求很高。

因此，急需提出一種文本匹配方法。

發(fā)明內(nèi)容

鑒于以上內(nèi)容，有必要提出一種基于預訓練模型的文本匹配方法、裝置、終端及存儲介質(zhì)，能夠快速且準確的匹配出最近似的文本。

本發(fā)明的第一方面提供一種基于預訓練模型的文本匹配方法，所述基于預訓練模型的文本匹配方法包括：

獲取預訓練模型BERT并對所述預訓練模型BERT進行參數(shù)微調(diào)得到參數(shù)共享的BERT模型；

獲取目標文本并抽取所述目標文本的第一詞嵌入向量；

將所述第一詞嵌入向量映射到低維詞嵌入空間得到第二詞嵌入向量；

輸入所述第二詞嵌入向量至所述參數(shù)共享的BERT模型中，并獲取所述參數(shù)共享的BERT模型輸出的目標向量；

根據(jù)所述目標向量從預設文本語料庫中匹配出最近似文本。

根據(jù)本發(fā)明的一個可選的實施例，所述對所述預訓練模型BERT進行參數(shù)微調(diào)得到參數(shù)共享的BERT模型包括：

獲取所述預訓練模型BERT中的多個編碼層及多個解碼層，并確定編碼層與解碼層之間的對應關系；

獲取每個所述編碼層的參數(shù)，并將所述參數(shù)更新為與所述編碼層對應的解碼層的參數(shù)；

基于參數(shù)更新后的預訓練模型BERT重新進行訓練得到參數(shù)共享的BERT模型。

根據(jù)本發(fā)明的一個可選的實施例，所述將所述第一詞嵌入向量映射到低維詞嵌入空間得到第二詞嵌入向量包括：

對所述第一詞嵌入向量進行奇異值分解；

提取奇異值分解得到的奇異值作為第二詞嵌入向量。

根據(jù)本發(fā)明的一個可選的實施例，所述提取奇異值分解得到的奇異值作為第二詞嵌入向量包括：

計算所述奇異值中非零奇異值的個數(shù)；

計算所述個數(shù)與預設比例閾值得到目標個數(shù)；

選取所述非零奇異值中所述目標個數(shù)之前的非零奇異值，并將選取的非零奇異值構(gòu)建為第二詞嵌入向量。

根據(jù)本發(fā)明的一個可選的實施例，所述抽取所述目標文本的第一詞嵌入向量包括：

對所述目標文本進行分詞處理得到詞塊嵌入；

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國際智慧城市科技股份有限公司，未經(jīng)平安國際智慧城市科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010859297.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術的結(jié)構(gòu)示意圖、流程工藝圖或技術構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】