[發(fā)明專利]一種基于Transformer模型的層融合方法及計算機設(shè)備在審
| 申請?zhí)枺?/td> | 201910923998.5 | 申請日: | 2019-09-27 |
| 公開(公告)號: | CN110674647A | 公開(公告)日: | 2020-01-10 |
| 發(fā)明(設(shè)計)人: | 閆明明;羅華成;陳緒浩;趙宇;段世豪 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 51126 成都中亞專利代理有限公司 | 代理人: | 王崗 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 輸出 融合 語義向量 解碼器 編碼器 矩陣 目標語言文本 計算機設(shè)備 層次結(jié)構(gòu) 層次信息 模型產(chǎn)生 語義信息 原始結(jié)構(gòu) 詞向量 第三層 第一層 有效地 再利用 轉(zhuǎn)換 遞推 向量 翻譯 | ||
1.一種基于Transformer模型的層融合方法,應(yīng)用于基于注意力機制的Transformer模型上,其特征在于;包括如下步驟:
(1)將源語言詞向量輸入給Transformer模型,經(jīng)過編碼器與解碼器的轉(zhuǎn)換,讓Transformer模型產(chǎn)生原始結(jié)構(gòu)的輸出,假設(shè)編碼器或者解碼器的每一層的輸出語義向量分別為output1,output2,L,outputn;
(2)運用層融合方法將編碼器或者解碼器的第一層與第二層的輸出語義向量output1和output2利用融合矩陣WF進行融合構(gòu)成新的輸出語義向量z1,計算公式為z1=concat(output1,output2)WF,并利用該新的輸出與第三層輸出語義向量output3進行融合,計算公式為z2=concat(z1,output3)WF;
(3)再利用融合得到的輸出z1與第四層輸出output4進行融合,依次遞推直到得到最后的融合輸出zn-1,并將該融合輸出作為模型的最終輸出;
(4)最終輸出詞向量再經(jīng)過softmax轉(zhuǎn)換得到目標語言文本;
(5)對上述經(jīng)過層融合方法處理過的模型進行訓(xùn)練;
(6)對上述已經(jīng)訓(xùn)練好的模型進行解碼翻譯。
2.根據(jù)權(quán)利要求1所述的基于Transformer模型的層融合方法,其特征在于,在步驟“將源語言詞向量輸入給Transformer模型,經(jīng)過編碼器與解碼器的轉(zhuǎn)換,讓Transformer模型產(chǎn)生原始結(jié)構(gòu)的輸出”之前,應(yīng)對語料庫進行分詞以及BPE處理。
3.根據(jù)權(quán)利要求1所述的基于Transformer模型的層融合方法,其特征在于,所述的應(yīng)用基于Transformer模型的層融合方法的機器翻譯系統(tǒng)包括Transformer模塊和層融合模塊。
4.一種計算機設(shè)備,包括CPU處理器、GPU處理器、存儲器和可在該計算機上存儲并運行的程序,其特征在于,所述計算機運行程序時能實現(xiàn)權(quán)利要求1-3中任意一項所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910923998.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種分布式的文本近似最近鄰語義搜索計算方法
- 一種基于深度學(xué)習(xí)的圖像個性化語義分析方法、裝置及設(shè)備
- 用于聚類句子的方法和裝置
- 一種基于變壓器模型和多參照系的文本編碼表示方法
- 查詢結(jié)果的確定方法、裝置、服務(wù)器及存儲介質(zhì)
- 文本語義匹配方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 語義情緒識別方法、裝置、設(shè)備及存儲介質(zhì)
- 結(jié)合知識圖譜實體信息的語義識別方法、裝置及相關(guān)設(shè)備
- 文本處理、文本處理模型訓(xùn)練方法、裝置和存儲介質(zhì)
- 答非所問識別模型的訓(xùn)練方法、裝置、設(shè)備和存儲介質(zhì)





