[發明專利]一種多任務學習模型訓練的方法及相關裝置在審
| 申請號: | 201910533352.6 | 申請日: | 2019-06-19 |
| 公開(公告)號: | CN112116095A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 黃海兵;龐帥;張揚 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 朱靜 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 任務 學習 模型 訓練 方法 相關 裝置 | ||
1.一種多任務學習模型訓練的方法,其特征在于,應用于安裝輸入法應用程序的設備,包括:
將相互關聯的多個目標任務的訓練數據輸入多任務深度神經網絡的共享編碼層獲得所述訓練數據的語句向量,所述共享編碼層是指所述多任務深度神經網絡中多個深度神經網絡共享的編碼層;
基于所述訓練數據的目標任務標識將所述訓練數據的語句向量輸入對應的深度神經網絡的解碼層獲得所述訓練數據的訓練結果;
基于所述訓練數據的訓練結果、所述訓練數據的標記結果訓練所述多任務深度神經網絡獲得目標多任務學習模型。
2.根據權利要求1所述的方法,其特征在于,所述共享編碼層包括共享詞向量層和共享語句向量層,所述將相互關聯的多個目標任務的訓練數據輸入多任務深度神經網絡的共享編碼層獲得所述訓練數據的語句向量,包括:
將所述多個目標任務的訓練數據輸入所述多任務深度神經網絡的共享詞向量層獲得所述訓練數據對應的詞向量;
將所述訓練數據對應的詞向量輸入所述多任務深度神經網絡的共享語句向量層獲得所述訓練數據的語句向量。
3.根據權利要求1所述的方法,其特征在于,所述訓練的方法包括深度學習反向傳播算法和Adam優化算法。
4.根據權利要求3所述的方法,其特征在于,所述基于所述訓練數據的訓練結果、所述訓練數據的標記結果訓練所述多任務深度神經網絡獲得目標多任務學習模型,包括:
基于所述訓練數據的訓練結果、所述訓練數據的標記結果獲得對應的深度神經網絡的損失函數;
根據所述損失函數更新所述多任務深度神經網絡的網絡參數獲得所述目標多任務學習模型。
5.根據權利要求4所述的方法,其特征在于,所述訓練結束條件為所述多任務深度神經網絡中多個所述深度神經網絡的損失函數均收斂或所述多任務深度神經網絡的迭代次數達到預設迭代次數。
6.根據權利要求2所述的方法,其特征在于,所述多個目標任務包括輸入聯想任務、智能回復任務和智能糾錯任務中任意兩個或三個。
7.根據權利要求6所述的方法,其特征在于,所述共享語句向量層包括長短期記憶模型;所述輸入聯想任務對應的深度神經網絡包括所述共享詞向量層、所述長短期記憶模型和所述全連接層,所述智能回復任務對應的深度神經網絡包括包括所述共享詞向量層、所述長短期記憶模型和所述全連接層,所述智能糾錯任務對應的深度神經網絡包括所述共享詞向量層和seq2seq模型。
8.一種多任務學習模型訓練的裝置,其特征在于,應用于安裝輸入法應用程序的設備,包括:
語句向量獲得單元,用于將相互關聯的多個目標任務的訓練數據輸入多任務深度神經網絡的共享編碼層獲得所述訓練數據的語句向量,所述共享編碼層是指所述多任務深度神經網絡中多個深度神經網絡共享的編碼層;
訓練結果獲得單元,用于基于所述訓練數據的目標任務標識將所述訓練數據的語句向量輸入對應的深度神經網絡的解碼層獲得所述訓練數據的訓練結果;
目標多任務學習模型獲得單元,用于基于所述訓練數據的訓練結果、所述訓練數據的標記結果訓練所述多任務深度神經網絡獲得目標多任務學習模型。
9.一種用于多任務學習模型訓練的裝置,其特征在于,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經配置以由一個或者一個以上處理器執行所述一個或者一個以上程序包含用于進行以下操作的指令:
將相互關聯的多個目標任務的訓練數據輸入多任務深度神經網絡的共享編碼層獲得所述訓練數據的語句向量,所述共享編碼層是指所述多任務深度神經網絡中多個深度神經網絡共享的編碼層;
基于所述訓練數據的目標任務標識將所述訓練數據的語句向量輸入對應的深度神經網絡的解碼層獲得所述訓練數據的訓練結果;
基于所述訓練數據的訓練結果、所述訓練數據的標記結果訓練所述多任務深度神經網絡獲得目標多任務學習模型。
10.一種機器可讀介質,其上存儲有指令,當由一個或多個處理器執行時,使得裝置執行如權利要求1至7中一個或多個所述的多任務學習模型訓練的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910533352.6/1.html,轉載請聲明來源鉆瓜專利網。





