[發明專利]多語言模型的訓練方法和裝置、存儲介質和電子設備有效
| 申請號: | 202010774741.0 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN112749556B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 童麗霞;雷植程;楊念民 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/216;G06F40/126;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 模型 訓練 方法 裝置 存儲 介質 電子設備 | ||
1.一種多語言模型的訓練方法,其特征在于,包括:
將多語言語料包和多語言共享詞匯表輸入至待訓練語言模型中,對所述待訓練語言模型進行訓練,得到預訓練語言模型,其中,所述預訓練語言模型用于對多種語言的語料進行語義識別,所述多語言語料包為包括多種語言的語料包,所述多語言共享詞匯表中存儲了對所述多語言語料包進行分詞得到的分詞集合;
將帶分詞標注的第一語言的第一語料集合和帶分詞標注的第二語言的第二語料集合所包括的語句全部輸入至所述預訓練語言模型中,對所述預訓練語言模型進行調整,得到意圖識別模型,其中,所述意圖識別模型用于識別所述第一語言和所述第二語言的語句所表示的語義和語義之間的關系,所述多種語言包括所述第一語言和所述第二語言;
將所述多種語言的語句輸入所述意圖識別模型,得到目標多語言模型,其中,所述目標多語言模型用于識別所述多種語言的語句所表示的語義和語義之間的關系。
2.根據權利要求1所述的方法,其特征在于,在所述將多語言語料包和多語言共享詞匯表輸入至待訓練語言模型中,對所述待訓練語言模型進行訓練,得到預訓練語言模型之前,所述方法還包括:
對所述多語言語料包進行分詞,確定所述多語言語料包中每個詞的詞頻;
將詞頻大于或等于預設閾值所對應的分詞集合,確定為所述多語言共享詞匯表。
3.根據權利要求1所述的方法,其特征在于,在所述將帶分詞標注的第一語言的第一語料集合和帶分詞標注的第二語言的第二語料集合所包括的語句全部輸入至所述預訓練語言模型中,對所述預訓練語言模型進行調整之前,所述方法還包括:
對于所述第一語料集合或者所述第二語料集合中的一個語句,執行以下步驟:
對所述一個語句進行分詞,得到所述一個語句對應的句向量,其中,所述句向量由N個分詞向量組成,所述N個分詞向量中的一個分詞向量包括:所述一個分詞向量對應的一個分詞的詞義信息、所述一個分詞的位置信息,所述詞義信息用于表示所述一個分詞本身的含義,所述位置信息用于表示所述一個分詞在所述一個語句中所處的位置,所述N為大于0的整數;
將所述句向量輸入至所述預訓練語言模型中。
4.根據權利要求3所述的方法,其特征在于,所述將帶分詞標注的第一語言的第一語料集合和帶分詞標注的第二語言的第二語料集合所包括的語句全部輸入至所述預訓練語言模型中,對所述預訓練語言模型進行調整,得到意圖識別模型,包括:
將所述句向量對應的第一編碼向量輸入至文本分類模型中,其中,所述第一編碼向量為對所述句向量進行編碼后所得到的向量;
對所述第一編碼向量進行分類,得到所述第一編碼向量中每個分詞向量的第一分類標簽;
在所述第一語料集合和所述第二語料集合所包括的語句均已輸入至所述預訓練語言模型中、且得到所述第一語料集合和所述第二語料集合所包括的語句對應的第二分類標簽的情況下,確定所述預訓練語言模型已調整完成,得到所述意圖識別模型。
5.根據權利要求4所述的方法,其特征在于,在所述將所述句向量對應的第一編碼向量輸入至文本分類模型中之前,所述方法還包括:
對所述句向量進行編碼得到所述第一編碼向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010774741.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高功率和高能量密度電池備用單元電芯封裝設計
- 下一篇:半導體裝置





