[發明專利]一種模型蒸餾學習方法、文本查詢方法及裝置有效
| 申請號: | 202011275406.2 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112101573B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 楊均暉;方寬;申站;趙龍 | 申請(專利權)人: | 智者四海(北京)技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F16/33 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 何明倫 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 蒸餾 學習方法 文本 查詢 方法 裝置 | ||
1.一種通過蒸餾學習第一模型訓練第二模型的方法,其特征在于,所述第一模型和第二模型為不同類型的模型,且所述第一模型和第二模型的輸入內容和輸出內容不同,當所述第一模型為交互模型時,所述第二模型為表示模型;當所述第一模型為表示模型時,所述第二模型為交互模型;所述交互模型包括輸入層、Transformer層以及輸出層,輸入層為:s1,s2,...sn,輸出層為:s1向量,s2向量,...,sn向量,其中:si是query和doci合并的語句,n是候選文本的個數;所述表示模型包括輸入層、Transformer層以及輸出層,輸入層為:query,doc1,...,docn,輸出層為:query向量,doc1向量,...,docn向量,所述query向量,doc1向量,...,docn向量用于計算query向量與doc向量之間的相關性,得到query與doc之間的得分;所述方法包括:
利用已標注的數據集訓練第一模型;
將遷移數據集輸入至訓練好的第一模型和所述第二模型,分別輸出第一相關性分數集和第二相關性分數集;
至少部分的根據所述第一相關性分數集和所述第二相關性分數集確定蒸餾損失;
根據所述蒸餾損失優化所述第二模型的參數,得到訓練好的第二模型。
2.根據權利要求1所述的方法,其特征在于,所述至少部分的根據所述第一相關性分數集和所述第二相關性分數集確定蒸餾損失,包括:
根據所述第一相關性分數集確定第一得分矩陣,以及根據所述第二相關性分數集確定第二得分矩陣;
至少部分的根據所述第一得分矩陣和所述第二得分矩陣確定蒸餾矩陣;
根據所述蒸餾矩陣確定蒸餾損失。
3.根據權利要求2所述的方法,其特征在于,所述至少部分的根據所述第一得分矩陣和所述第二得分矩陣確定蒸餾矩陣,包括:
構建成對鉸鏈損失pairwise hinge loss函數模型;
將所述第一得分矩陣和所述第二得分矩陣輸入至pairwise hinge loss函數模型,輸出蒸餾矩陣。
4.一種文本查詢方法,其特征在于,所述方法包括:
獲取查詢文本和候選文本;
將所述查詢文本和候選文本輸入至預先訓練好的文本查詢模型中,輸出查詢文本和候選文本之間的得分;其中,所述文本查詢模型為通過蒸餾學習交互模型訓練得到的表示模型,且蒸餾過程中的蒸餾損失是通過pairwise hinge loss函數模型確定的,所述交互模型和所述表示模型為不同類型的模型,且所述交互模型和所述表示模型的輸入內容和輸出內容不同,所述交互模型的輸入為:s1,s2,...sn,輸出為:s1向量,s2向量,...,sn向量,其中:si是query和doci合并的語句,n是候選文本的個數;所述表示模型的輸入為:query,doc1,...,docn,輸出為:query向量,doc1向量,...,docn向量,所述query向量,doc1向量,...,docn向量用于計算query向量與doc向量之間的相關性,得到query與doc之間的得分;
根據所述查詢文本和候選文本之間的得分輸出所述查詢文本相匹配的目標候選文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于智者四海(北京)技術有限公司,未經智者四海(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011275406.2/1.html,轉載請聲明來源鉆瓜專利網。





