[發明專利]一種自然語言模型的獲取方法及相關設備在審
| 申請號: | 202011375310.3 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN114580393A | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 韓驍楓;王寶軍;張宇洋 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 陳松浩 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 模型 獲取 方法 相關 設備 | ||
本申請公開了一種自然語言模型的獲取方法及相關設備,具體用于人工智能領域,該方法包括:獲取預訓練模型,所述預訓練模型包括第一詞嵌入層,所述第一詞嵌入層包括多種語言的混合語言詞匯表,所述第一詞嵌入層用于根據所述混合語言詞匯表對輸入語料進行詞向量表示;確定所述多種語言中的第一語言,并將所述第一詞嵌入層的所述混合語言詞匯表替換為所述第一語言對應的第一詞匯表;根據所述第一語言的無標注語料對替換后的預訓練模型進行訓練,更新所述第一詞嵌入層的參數;根據更新后的預訓練模型的參數調整任務模型的參數;根據所述第一語言對應的第一標注語料對所述任務模型進行訓練,并根據訓練結果得到第一語言模型。
技術領域
本申請涉及人工智能領域中的自然語言理解領域,尤其涉及一種自然語言模型的獲取方法及相關設備。
背景技術
隨著人工智能的不斷發展,神經網絡模型在自然語言理解領域被廣泛應用。自然語言理解模型的網絡結構復雜,訓練過程往往需要大量的訓練數據支撐;針對某一具體任務而言,為了避免該任務訓練數據較少而不足以訓練網絡模型的情況發生,同時為了加快訓練速度,現有主流的自然語言理解模型都是基于預訓練模型的微調模型。即基于公開的無標注數據,首先在掩碼語言模型(masked language model,MLM)或者下句預測模型(nextsentence prediction,NSP)等任務上預訓練一個模型,然后基于具體的自然語言理解任務來設計該預訓練模型的下游網絡結構,接著再利于該任務的標注數據來對整個網絡結構進行微調訓練,最終得到關于具體任務的神經網絡模型。
在預訓練過程中,往往需要大量無標注文本數據,這些無標注文本數據通常來自于對應語言的文本數據集;因此,對于英語、中文等使用人數較多的語言,可以輕易獲得大量的公開文本數據,但是對于其他使用人數較少的低資源語言,則沒有足夠的公開文本數據,不足以訓練出一個只針對該低資源語言的預模型。為了解決上述問題,通常會使用混合語言來訓練一個支持多種語言的預訓練模型,然后再針對低資源語言對應的具體任務在該預訓練模型下設計下游網絡結構,最終得到該低資源語言下的任務模型。
由于混合語言的預訓練模型包含多種語言的知識,所以預訓練模型的參數數量巨大,而實際上最終針對某種語言的任務模型并不需要所有語言的知識,這將導致任務模型體積過大且訓練速度過慢,嚴重影響任務模型的性能;因此,如何獲得更高性能的針對特定語言的神經網絡模型成為亟需解決的問題。
發明內容
本申請實施例提供了一種自然語言模型的獲取方法及相關設備,用于根據包含有多種語言知識的預訓練模型來獲取目標語言對應的任務模型,其中,任務模型與具體的自然語言任務相關;通過遷移學習的方法,簡化了任務模型的詞嵌入層參數,加速了任務模型的訓練速度,提高了自然語言模型的獲取效率。
本申請實施例的第一方面提供一種自然語言模型的獲取方法,包括:
首先獲取包含有多種語言知識的預訓練模型,該預訓練模型包括第一詞嵌入層,第一詞嵌入層的作用是利用混合語言詞匯表對輸入的語料進行詞向量表示;然后確定多種語言中的第一語言,先將預訓練模型中的混合語言詞匯表替換為第一語言對應的第一詞匯表,然后利用第一語言的無標注語料對替換后的預訓練模型進行訓練,更新第一詞嵌入層的參數;然后設計任務模型,任務模型也包括詞嵌入層和任務層,利用更新后的第一詞嵌入層的參數來對任務模型的詞嵌入層進行初始化,完成預訓練任務所包含的知識到任務模型的遷移,最后根據第一語言的第一標注語料對整個任務模型進行訓練,更新任務模型每一層的參數,最終得到第一語言模型。
在上述方法中,語言知識從預訓練模型到第一語言模型的遷移,利用預訓練模型的詞嵌入層參數來初始化第一語言模型的詞嵌入層參數,這樣,減少了任務模型的訓練次數,加速了任務模型的收斂速度,同時任務模型詞嵌入層的詞匯表也替換為第一語言詞匯表,減少了任務模型的體積,優化了任務模型的性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011375310.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種封裝結構、封裝方法
- 下一篇:熱交換裝置





