[發明專利]基于預訓練模型的文本匹配方法、裝置、終端及存儲介質在審
| 申請號: | 202010859297.2 | 申請日: | 2020-08-24 |
| 公開(公告)號: | CN112000805A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 于溦 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F16/332;G06F40/284;G06F40/35 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 模型 文本 匹配 方法 裝置 終端 存儲 介質 | ||
1.一種基于預訓練模型的文本匹配方法,其特征在于,所述基于預訓練模型的文本匹配方法包括:
獲取預訓練模型BERT并對所述預訓練模型BERT進行參數微調得到參數共享的BERT模型;
獲取目標文本并抽取所述目標文本的第一詞嵌入向量;
將所述第一詞嵌入向量映射到低維詞嵌入空間得到第二詞嵌入向量;
輸入所述第二詞嵌入向量至所述參數共享的BERT模型中,并獲取所述參數共享的BERT模型輸出的目標向量;
根據所述目標向量從預設文本語料庫中匹配出最近似文本。
2.如權利要求1所述的基于預訓練模型的文本匹配方法,其特征在于,所述對所述預訓練模型BERT進行參數微調得到參數共享的BERT模型包括:
獲取所述預訓練模型BERT中的多個編碼層及多個解碼層,并確定編碼層與解碼層之間的對應關系;
獲取每個所述編碼層的參數,并將所述參數更新為與所述編碼層對應的解碼層的參數;
基于參數更新后的預訓練模型BERT重新進行訓練得到參數共享的BERT模型。
3.如權利要求1所述的基于預訓練模型的文本匹配方法,其特征在于,所述將所述第一詞嵌入向量映射到低維詞嵌入空間得到第二詞嵌入向量包括:
對所述第一詞嵌入向量進行奇異值分解;
提取奇異值分解得到的奇異值作為第二詞嵌入向量。
4.如權利要求3所述的基于預訓練模型的文本匹配方法,其特征在于,所述提取奇異值分解得到的奇異值作為第二詞嵌入向量包括:
計算所述奇異值中非零奇異值的個數;
計算所述個數與預設比例閾值得到目標個數;
選取所述非零奇異值中所述目標個數之前的非零奇異值,并將選取的非零奇異值構建為第二詞嵌入向量。
5.如權利要求1所述的基于預訓練模型的文本匹配方法,其特征在于,所述抽取所述目標文本的第一詞嵌入向量包括:
對所述目標文本進行分詞處理得到詞塊嵌入;
根據所述目標文本的上下文關系獲取每一個詞塊的段號嵌入及獲取每一個詞塊的位置嵌入;
將所述詞塊嵌入、所述段號嵌入及所述位置嵌入疊加形成第一詞嵌入向量。
6.如權利要求1所述的基于預訓練模型的文本匹配方法,其特征在于,所述根據所述目標向量從預設文本語料庫中匹配出最近似文本包括:
遍歷所述預設文本語料庫中的每一個文本語料的文本向量;
計算所述目標向量與每一個文本語料的文本向量之間的相似度;
對所述相似度進行排序并將排序在第一的相似度對應的文本語料確定為所述目標文本的最近似文本。
7.如權利要求6所述的基于預訓練模型的文本匹配方法,其特征在于,在遍歷所述預設文本語料庫中的每一個文本語料的文本向量之前,所述方法還包括:
抽取每一個文本語料的詞嵌入向量;
將所述每一個文本語料的詞嵌入向量進行奇異值分解,并提取奇異值分解得到的奇異值作為最終詞嵌入向量;
輸入所述每一個文本語料的最終詞嵌入向量至所述參數共享的BERT模型中,并獲取所述參數共享的BERT模型輸出的文本向量。
8.一種基于預訓練模型的文本匹配裝置,其特征在于,所述基于預訓練模型的文本匹配裝置包括:
模型訓練模塊,用于獲取預訓練模型BERT并對所述預訓練模型BERT進行參數微調得到參數共享的BERT模型;
文本抽取模塊,用于獲取目標文本并抽取所述目標文本的第一詞嵌入向量;
低維嵌入模塊,用于將所述第一詞嵌入向量映射到低維詞嵌入空間得到第二詞嵌入向量;
向量輸出模塊,用于輸入所述第二詞嵌入向量至所述參數共享的BERT模型中,并獲取所述參數共享的BERT模型輸出的目標向量;
文本匹配模塊,用于根據所述目標向量從預設文本語料庫中匹配出最近似文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010859297.2/1.html,轉載請聲明來源鉆瓜專利網。





