[發明專利]一種自然語言理解模型訓練方法及裝置在審
| 申請號: | 202011165670.0 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN114490922A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 韓驍楓;吳國星 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 朱琳琳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 理解 模型 訓練 方法 裝置 | ||
本申請涉及人工智能技術領域,公開了一種自然語言理解模型訓練方法及裝置,用以在壓縮自然語言理解模型的同時,盡可能提高模型的精度和性能。該方法包括:通過訓練語句以及級聯后的老師自然語言理解模型和感知損失網絡,對所述感知損失網絡進行訓練;將所述訓練語句輸入級聯后的所述老師自然語言理解模型和訓練后的所述感知損失網絡進行處理,得到第三句向量,以及將所述訓練語句輸入級聯后的學生自然語言理解模型和訓練后的所述感知損失網絡進行處理,得到第四句向量;計算所述第四句向量相對所述第三句向量的感知損失;根據所述感知損失調整所述學生自然語言理解模型的參數,獲得訓練完成的學生自然語言理解模型。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種自然語言理解模型訓練方法及裝置。
背景技術
人工智能(artificial intelligence,AI)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,獲取知識并使用知識獲得最佳結果的理論、方法、技術及應用系統。換句話說,人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式作出反應的智能機器。人工智能也就是研究各種智能機器的設計原理與實現方法,使機器具有感知、推理與決策的功能。人工智能領域的研究包括機器人,自然語言理解,計算機視覺,決策與推理,人機交互,推薦與搜索,AI基礎理論等。
目前,在自然語言理解領域,滿足實時性要求的主流深度學習模型都是基于預訓練模型的壓縮微調模型。這一訓練過程可以簡單分為3步:1、加載預訓練的自然語言理解模型,并通過指定任務訓練數據微調獲得一個參數量較大的老師模型;2、通過知識蒸餾等方法,將老師模型學習到的知識遷移到一個參數量較小的學生模型上;3、通過指定任務訓練數據微調學生模型的參數。目前這種訓練方法的主要瓶頸集中在如何平衡參數量和性能之間的關系,即在盡可能小的模型上,維持一個可以接受的比較高的精度,以及如何使得學生模型盡可能多地學習到老師模型的知識。
在計算機視覺領域,深度學習模型為了滿足實時性的要求,也同樣面臨著上述的問題。針對這些問題,有一些研究者提出了利用感知損失提升知識蒸餾的效果。具體來說,就是在知識蒸餾的過程中,將老師模型和學生模型的輸出圖片,分別輸入一個預訓練好的網絡。這個網絡通常是在大量的圖片數據上預訓練的,能夠捕捉圖片的語義特征。隨后,再在這個網絡的兩個輸出結果之間,計算感知損失,用來表示老師模型和學生模型在感知網絡下的語義相似性。但是,這些方法在應用到自然語言理解領域的時候,存在著以下的問題:1、當前提出的感知損失網絡都是基于卷積神經元網絡(convolutional neuronnrtwork,CNN)的,輸入都是二維的圖片,不是自然語言,而自然語言理解問題的輸入和輸出通常具有序列性的語句,因此CNN結構不適用;2、當前的感知損失網絡的輸入和原始網絡的輸入是同源的,即老師網絡和學生網絡的輸入都是圖片,而感知損失網絡的輸入也是圖片,每個像素值的取值范圍是連續的。但是自然語言理解領域中,老師網絡和學生網絡的輸入是由單詞組成的句子,感知損失網絡的輸入是句向量,如果由句向量變為句子的話,取值范圍會變成一個不連續的空間。因此目前的方法不適合于這個領域的問題。
因此,需要一種適用于自然語言理解模型的訓練方法,以使得學生模型盡可能多地學習到老師模型的知識,獲得更高的精度。
發明內容
本申請實施例提供一種自然語言理解模型訓練方法及裝置,用以在壓縮自然語言理解模型的同時(即將老師自然理解模型的知識向學生自然理解模型遷移的同時),盡可能提高模型(學生自然語言理解模型)的精度和性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011165670.0/2.html,轉載請聲明來源鉆瓜專利網。





