[發明專利]語言任務的對比預訓練在審
| 申請號: | 202080067604.1 | 申請日: | 2020-09-21 |
| 公開(公告)號: | CN114514540A | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | T.M.梁;Q.V.勒;K.S.克拉克 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N5/04;G06F40/40 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 任務 對比 訓練 | ||
1.一種訓練機器學習語言編碼器模型的計算機實現的方法,所述方法包括:
對于一次或多次訓練迭代中的每一個:
由包括一個或多個計算設備的計算系統獲得包括多個原始輸入詞元的原始語言輸入;
由所述計算系統選擇所述多個原始輸入詞元中的一個或多個用作一個或多個掩蔽的詞元;
由所述計算系統生成一個或多個替換詞元;
由所述計算系統用所述一個或多個替換詞元分別替換所述原始語言輸入中的所述一個或多個掩蔽的詞元,以形成包括多個更新的輸入詞元的加噪的語言輸入;
由所述計算系統用所述機器學習語言編碼器模型處理所述加噪的語言輸入,以分別為所述多個更新的輸入詞元產生多個預測,其中,由所述機器學習語言編碼器模型為每個更新的輸入詞元產生的所述預測預測這種更新的輸入詞元是所述原始輸入詞元之一還是所述替換輸入詞元之一;以及
由所述計算系統至少部分地基于損失函數來訓練所述機器學習語言編碼器模型,所述損失函數評估由所述機器學習語言編碼器模型產生的所述多個預測。
2.根據權利要求1所述的計算機實現的方法,其中,由所述計算系統生成所述一個或多個替換詞元包括由所述計算系統使用機器學習語言生成器模型生成所述一個或多個替換詞元。
3.根據權利要求2所述的計算機實現的方法,其中,所述機器學習語言生成器模型包括已經被訓練來預測所述一個或多個掩蔽的詞元的掩蔽語言模型。
4.根據權利要求2或3所述的計算機實現的方法,還包括:
由所述計算系統至少部分地基于第二損失函數來訓練所述機器學習語言生成器模型,所述第二損失函數評估所述一個或多個替換詞元與被選擇用作掩蔽的詞元的所述一個或多個原始詞元之間的差。
5.根據權利要求4所述的計算機實現的方法,其中,所述第二損失函數包括最大似然估計函數。
6.根據權利要求2-5中任一項所述的計算機實現的方法,還包括:
由所述計算系統基于第二目標函數以強化學習方案來訓練所述機器學習語言生成器模型,所述第二目標函數評估由所述機器學習語言編碼器模型為由所述機器學習語言生成器模型生成的所述替換詞元產生的預測。
7.根據權利要求4-6中任一項所述的計算機實現的方法,其中,所述方法包括由所述計算系統基于包括所述損失函數和所述第二損失函數的組合的組合損失函數來聯合訓練所述機器學習語言生成器模型和所述機器學習語言編碼器模型。
8.根據權利要求4-6中任一項所述的計算機實現的方法,其中,在所述一次或多次訓練迭代之前,所述方法還包括:
由所述計算系統根據所述第二損失函數單獨訓練所述機器學習語言生成器模型;以及
在由所述計算系統單獨訓練所述機器學習語言生成器模型之后:
由所述計算系統基于所述機器學習語言生成器模型用權重值初始化所述機器學習語言編碼器模型。
9.根據權利要求2-8中任一項所述的計算機實現的方法,其中,在所述機器學習語言生成器模型和所述機器學習語言編碼器模型之間共享一個或多個權重。
10.根據權利要求1所述的計算機實現的方法,其中,由所述計算系統生成所述一個或多個替換詞元包括由所述計算系統從噪聲分布中采樣所述一個或多個替換詞元。
11.根據任一前述權利要求所述的計算機實現的方法,其中,所述機器學習語言編碼器模型包括Transformer網絡文本編碼器。
12.根據任一前述權利要求所述的計算機實現的方法,其中,當所述替換詞元之一等于它替換的原始詞元時,所述損失函數評估這樣的替換詞元,如它被包括在所述原始輸入詞元中一樣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080067604.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:區塊鏈賬本驗證和服務
- 下一篇:跨騎型車輛、收納箱單元





