[發(fā)明專利]可傳遞自然語言表示的重新訓(xùn)練投影網(wǎng)絡(luò)在審
| 申請?zhí)枺?/td> | 202010093708.1 | 申請日: | 2020-02-14 |
| 公開(公告)號: | CN111368996A | 公開(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計)人: | Z.科扎列娃;S.拉維;C.桑卡爾 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 傳遞 自然語言 表示 重新 訓(xùn)練 投影 網(wǎng)絡(luò) | ||
提供用于預(yù)投影網(wǎng)絡(luò)以用作可傳遞自然語言表示生成器的系統(tǒng)和方法。特別地,本文描述的示例預(yù)訓(xùn)練方案使得能夠?qū)W習(xí)隨機(jī)局部敏感哈希(LSH)投影上的可傳遞深度神經(jīng)投影表示,從而無需存儲任何嵌入矩陣,因為可以在推斷時動態(tài)地計算投影。
對相關(guān)申請的交叉引用
本申請要求2019年2月14日提交的美國臨時專利申請No.62/805,498的優(yōu)先權(quán)和權(quán)益。美國臨時專利申請No.62/805,498的全部內(nèi)容通過引用合并于此。
技術(shù)領(lǐng)域
本公開通常涉及機(jī)器學(xué)習(xí)。更具體地,本公開涉及預(yù)訓(xùn)練投影網(wǎng)絡(luò)以用作可傳遞自然語言表示生成器的系統(tǒng)和方法。
背景技術(shù)
神經(jīng)語言表示是許多最新自然語言處理模型的核心。一種廣泛使用的方法是預(yù)訓(xùn)練、存儲和查找詞或字符嵌入矩陣。一些流行的詞嵌入是word2vec、GloVe和ELMO。諸如此類的取決于預(yù)先計算的詞嵌入的方法可以幫助初始化神經(jīng)模型,導(dǎo)致更快的收斂,并提高了許多應(yīng)用的性能,諸如問題解答、總結(jié)、情感分析和其他類似任務(wù)。
盡管有用,但是這種預(yù)先計算的語言表示會占用大量存儲器。例如,必須為每一個不同的詞或其他語言單元存儲一個條目(例如,d維嵌入向量)。這樣,存儲嵌入矩陣所需的存儲器量與詞匯表大小成正比。因此,對于平均大小的詞匯表,需要大量存儲器。修剪詞匯表可能會導(dǎo)致存儲器需求減少,但是也會阻礙語言表示泛化為未知詞的能力。除了存儲器需求之外,還需要查找操作以從嵌入矩陣中獲得對特定語言輸入(例如,詞)的嵌入。
通常,深度學(xué)習(xí)模型的巨大成功以及移動IoT設(shè)備的爆炸性增長,以及對用戶隱私的日益重視,導(dǎo)致需要部署用于推斷的“設(shè)備上”的深度學(xué)習(xí)模型。
然而,與預(yù)先計算和存儲的語言表示形式相關(guān)的存儲器需求使它們難以在設(shè)備上進(jìn)行部署。因此,需要適合在設(shè)備上或在其他資源受限的設(shè)置中使用的用于生成語言表示的改進(jìn)的技術(shù)。
發(fā)明內(nèi)容
本公開的實施例的各方面和優(yōu)點(diǎn)將在以下描述中部分地闡述,或者可以從描述中獲悉,或者可以通過實施例的實施而獲知。
本公開的一個示例方面針對一種計算系統(tǒng),該計算系統(tǒng)包括一個或多個處理器和一個或多個共同存儲預(yù)訓(xùn)練的投影網(wǎng)絡(luò)的非暫時性計算機(jī)可讀介質(zhì)。預(yù)訓(xùn)練的投影網(wǎng)絡(luò)被配置為接收包括一個或多個文本單元的語言輸入,并從該語言輸入動態(tài)生成中間表示。預(yù)訓(xùn)練的投影網(wǎng)絡(luò)包括一個或多個投影層的序列,其中,每一個投影層被配置為接收層輸入并將多個投影層函數(shù)應(yīng)用于層輸入以生成投影層輸出。預(yù)訓(xùn)練的投影網(wǎng)絡(luò)包括一個或多個中間層的序列,該中間層被配置為接收由一個或多個投影層的序列中的最后一個投影層生成的投影層輸出并生成一個或多個中間層輸出,其中,中間表示包括由一個或多個中間層的序列中的最后一個中間層生成的中間層輸出。計算機(jī)可讀介質(zhì)共同存儲指令,所述指令在由一個或多個處理器執(zhí)行時使計算系統(tǒng)執(zhí)行操作。操作包括獲得語言輸入;將語言輸入輸入預(yù)訓(xùn)練的投影網(wǎng)絡(luò);以及接收中間表示作為預(yù)訓(xùn)練的投影網(wǎng)絡(luò)的輸出。
本公開的另一示例方面針對一種計算機(jī)實現(xiàn)的方法,用于預(yù)訓(xùn)練包括一個或多個投影層和一個或多個中間層的投影網(wǎng)絡(luò),每一個投影層被配置為應(yīng)用一個或多個投影函數(shù)以將層輸入投影到不同的維度空間,投影網(wǎng)絡(luò)被配置為接收輸入并為所述輸入生成中間表示。該方法包括由一個或多個計算設(shè)備訪問包括多個示例輸入的訓(xùn)練數(shù)據(jù)集合。該方法包括由一個或多個計算設(shè)備將多個示例輸入中的每一個輸入到投影網(wǎng)絡(luò)中。該方法包括由一個或多個計算設(shè)備接收用于多個示例輸入中的每一個的相應(yīng)中間表示,作為投影網(wǎng)絡(luò)的輸出。該方法包括由一個或多個計算設(shè)備將每一個相應(yīng)中間表示輸入到解碼器模型中,該解碼器模型被配置為基于中間表示來重構(gòu)輸入。該方法包括由一個或多個計算設(shè)備接收對多個示例輸入中的每一個的相應(yīng)重構(gòu)輸入,作為解碼器模型的輸出。該方法包括至少部分地基于每一個相應(yīng)重構(gòu)輸入與對應(yīng)示例輸入的比較,由一個或多個計算設(shè)備學(xué)習(xí)投影網(wǎng)絡(luò)的一個或多個中間層的一個或多個參數(shù)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010093708.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





