[發明專利]神經網絡模型訓練方法和裝置、自然語言處理方法和裝置有效
| 申請號: | 201910245096.0 | 申請日: | 2019-03-28 |
| 公開(公告)號: | CN109978141B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 劉樂茂;李冠林 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 張曉明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 模型 訓練 方法 裝置 自然語言 處理 | ||
本公開提供了一種用于自然語言處理的神經網絡模型的訓練方法、裝置、自然語言處理方法、裝置、電子設備和計算機可讀存儲介質。神經網絡模型至少包括編碼和解碼單元,編碼單元用于將輸入符號序列編碼映射為編碼的符號序列,解碼單元解碼并生成輸出符號序列,解碼單元包括級聯的多個解碼子單元層,訓練方法包括:基于第一損失函數,訓練隨機初始化的神經網絡模型,獲得第一神經網絡模型;以及利用訓練數據,基于第二損失函數訓練第一神經網絡模型,獲得第二神經網絡模型,其中,第二損失函數與級聯的多個解碼子單元層的層級相關。通過為各中間層引入額外的損失函數執行訓練,提升各中間層的特征遷移能力,實現神經網絡模型性能的整體提升。
技術領域
本公開涉及自然語言處理領域,更具體地,本公開涉及一種用于自然語言處理的神經網絡模型的訓練方法、訓練裝置、自然語言處理方法、自然語言處理裝置、電子設備和計算機可讀存儲介質。
背景技術
神經網絡是一種大規模、多參數優化的工具。依靠大量的訓練數據,神經網絡能夠學習出數據中難以總結的隱藏特征,從而完成多項復雜的任務,如自然語言處理、圖像語義分割、物體檢測、動作追蹤等。神經網絡已被人工智能界廣泛應用。
目前,在利用神經網絡模型執行的諸如機器翻譯的自然語言處理任務中,通常采用堆疊式的神經網絡模型結構。也就是說,從神經網絡模型的輸入端起,對源語言數據通過一系列級聯的多層特征提取和變換,最終得到頂層的向量表示,并基于頂層的表示構建詞表示空間上的多類分類器,用于目標語言在輸出端的輸出翻譯預測。對于這種多層神經網絡模型的訓練,通常只通過專注于頂層表示來執行訓練,而缺少對于多層神經網絡模型的各中間層,根據實際應用場景有針對性地提供訓練任務,從而通過提高各中間層的特征遷移能力來提升整體神經網絡模型的性能。
發明內容
鑒于上述問題而提出了本公開。本公開提供了一種用于自然語言處理的神經網絡模型的訓練方法、訓練裝置、自然語言處理方法、自然語言處理裝置、電子設備和計算機可讀存儲介質。
根據本公開的一個方面,提供了一種用于自然語言處理的神經網絡模型的訓練方法,所述神經網絡模型至少包括編碼單元和解碼單元,所述編碼單元用于將輸入符號序列編碼映射為編碼的符號序列,所述解碼單元基于所述編碼的符號序列,解碼并生成輸出符號序列,所述解碼單元包括級聯的多個解碼子單元層,所述訓練方法包括:利用標注有輸入和輸出序列對的訓練數據,基于第一損失函數,訓練隨機初始化的神經網絡模型,獲得第一神經網絡模型;以及利用所述訓練數據,基于第二損失函數訓練所述第一神經網絡模型,獲得第二神經網絡模型,其中,所述第二損失函數與所述級聯的多個解碼子單元層的層級相關。
此外,根據本公開一個方面的訓練方法,其中,所述第二損失函數包括逐層正則損失函數和層間正則損失函數,其中,所述逐層正則損失函數用于使得訓練后的所述多個解碼子單元層中的每一層具有相應的特征表示能力,并且越接近所述解碼單元輸出端,所述解碼子單元層具有越強的所述特征表示能力;所述層間正則損失函數用于使得訓練后的所述多個解碼子單元層的相應的特征表示能力具有一致性。
此外,根據本公開一個方面的訓練方法,還包括:對所述訓練數據中的目標語言數據執行層次聚類,獲得目標語言的層次聚類樹;基于所述層次聚類樹構造與層次相關的預測任務;選擇所述與層次相關的預測任務為所述多個解碼子單元層構造所述第二損失函數。
此外,根據本公開一個方面的訓練方法,其中,所述第一損失函數是最大似然估計損失函數,并且訓練所述第一神經網絡模型還包括:基于所述最大似然估計損失函數、所述逐層正則損失函數和所述層間正則損失函數,訓練所述第一神經網絡模型,獲得第二神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910245096.0/2.html,轉載請聲明來源鉆瓜專利網。





