[發明專利]一種基于注意力共享Transformer的語法改錯模型在審
| 申請號: | 202010482641.0 | 申請日: | 2020-06-01 |
| 公開(公告)號: | CN111859927A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 徐書堯;陳進;秦龍 | 申請(專利權)人: | 北京先聲智能科技有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 北京中企訊專利代理事務所(普通合伙) 11677 | 代理人: | 熊亮 |
| 地址: | 100000 北京市海淀區上莊*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 共享 transformer 語法 改錯 模型 | ||
1.一種基于注意力共享Transformer的語法改錯模型,其特征在于:包括編碼器與解碼器,所述編碼器由多層結構組成,每層結構均包含自注意力層與前饋神經網絡,數據輸入自注意力層,自注意力層進行計算后輸出處理數據至前饋神經網絡,前饋神經網絡輸出處理結果至解碼器;
所述解碼器由自注意力層、編碼器解碼器注意力層與前饋神經網絡構成,數據輸入自注意力層,自注意力層進行計算后輸出處理數據至編碼器解碼器注意力層,同時編碼器輸出的數據輸入編碼器解碼器注意力層,編碼器解碼器注意力層處理數據后輸出至解碼器的前饋神經網絡,由解碼器的前饋神經網絡輸出計算數據,并通過Softmax映射到詞匯表上的概率分布;
編碼器中的自注意力層和解碼器中的自注意力層為相同的機制模塊,自注意層包括注意力機制和多頭注意力;
編碼器中的前饋神經網絡和解碼器中的前饋神經網絡為相同的機制模塊;
編碼器和解碼器中的各個連接模塊之間,從前一模塊輸出在輸入下一模塊前需要進行殘差連接與層歸一化處理。
2.根據權利要求1所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:注意力機制的計算規則為:
attention(a,V)=aV
其中a僅在第一層計算一次,之后的幾層均直接使用第一層的a。
3.根據權利要求1所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:多頭注意力的計算規則為:
MultiHead(V)=Concat(head1,...,headh)WO
where headi=attention(ai,V WiV),
ai=a(Q WiQ,K WiK)
在自注意力層中Q=K=V;在編碼器解碼器注意力層中,K與V來自編碼器的輸出,而Q來自解碼器的輸入。
4.根據權利要求1所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:前饋神經網絡的計算規則為:
FFN(x)=max(0,xW1+b1)W2+b2
在前饋神經網絡中,輸入輸出的維度為d,內部的維度為4d,其中為模型參數。
5.根據權利要求1所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:殘差連接與層歸一化處理計算規則為:
NormAdd(X)=LayerNorm(X+SubLayer(X))。
6.根據權利要求1所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:解碼器輸出的數據通過Softmax映射,其處理規則為:
pt=softmax(dt Wvocab)
其中dt表示t時刻解碼器的輸出,Wvocab表示詞嵌入矩陣。
7.根據權利要求1所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:從自注意力層輸入的數據為目標函數。
8.根據權利要求7所述的一種基于注意力共享Transformer的語法改錯模型,其特征在于:目標函數的計算規則為:
其中T表示輸入的文本長度,yt表示標簽,XN表示編碼器的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京先聲智能科技有限公司,未經北京先聲智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010482641.0/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





