[發明專利]一種針對詞匯序列數據的綜合位置編碼方法有效
| 申請號: | 202011297709.4 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112464651B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 柳林青;徐小龍 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/284;G06F40/58;G06N3/0455;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 母秋松 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 詞匯 序列 數據 綜合 位置 編碼 方法 | ||
1.一種針對詞匯序列數據的綜合位置編碼方法,其特征在于:包括如下步驟:
通過在實數空間隨機采樣生成三組詞典:源輸入和目標輸入的詞匯編碼詞典源輸入和目標輸入的絕對位置編碼詞典源輸入和目標輸入的相對位置編碼鍵位詞典和相對位置編碼值位詞典其中,lsrc和ltgt分別表示源輸入詞匯編碼詞典和目標輸入詞匯編碼詞典的大小,下標src、tgt分別代表源輸入、目標輸入,下標src:K、tgt:K分別代表源輸入鍵位、目標輸入鍵位,下標src:V、tgt:V分別代表源輸入值位、目標輸入值位,dim為每個特征向量的長度,max_len表示數據中源輸入和目標輸入中出現過的最長的序列長度,k表示任意兩個詞匯計算相對位置時允許的最大距離;
根據輸入中的詞匯查找到詞匯編碼詞典VOCsrc、VOCtgt中對應的特征向量xi、yi,組成源輸入和目標輸入詞匯特征向量組:
Xlen(src)×dim=[x1,x2…xlen(src)-1,end]
Ylen(tgt)×dim=[start,y1…ylen(tgt)-1]
len(src)-1和len(tgt)-1分別表示源輸入和目標輸入的長度,end和start分別表示語句的結束和開始向量;
在絕對位置詞典VOC_POsrc、VOC_POtgt中分別截取前len(src)和len(tgt)行,生成源輸入和目標輸入絕對位置特征向量組:
將以上數據輸入Transformer模型進行訓練,得到訓練好的Transformer模型;
所述將以上數據輸入Transformer模型進行訓練,得到訓練好的Transformer模型,具體包括如下步驟:
S3-1:對Transformer模型N層編碼器進行訓練,其中,第i層編碼器一端的輸入如下:
其中,Wi1Q,Wi1K,Wi1V是編碼器中的參數矩陣,bi1Q,bi1K,bi1V是編碼器中的參數向量,Xi-1為第i-1層的編碼器的輸出;
第i層編碼器另一端輸出如下:
其中,Wi2,Wi3為參數矩陣,bi2,bi3為參數向量;Xi為第i層的編碼器的輸出;
當i=0時:
X0=X+POsrc
其中,X為源輸入詞匯特征向量組,POsrc為源輸入絕對位置特征向量組,X0第1層編碼器一端的輸入;
S3-2:對Transformer模型N層解碼器進行訓練,其中,第i層解碼器一端的輸入如下:
其中,Wi1Q,Wi1K,Wi1V是解碼器中的參數矩陣,bi1Q,bi1K,bi1V是解碼器中的參數向量,Yi-1為第i-1層的解碼器的輸出;
第i層解碼器另一端的輸出如下:
其中,XN代表第N層編碼器的輸出,Wi1Q:context,Wi1K:context,Wi1V:context為參數矩陣,bi1Q:context,bi1K:context,bi1V:context為參數向量;
當i=0時:
Y0=Y+POtgt
其中,Yi為第i層的解碼器的輸出,Y為目標輸入詞匯特征向量組,POtgt為目標輸入絕對位置特征向量組,Y0第1層解碼器一端的輸入,YN為第N層解碼器的輸出,為Transformer模型的輸出、Wend、bend分別代表參數矩陣、參數向量;
S3-3:設其中,每個v代表一個目標輸入詞匯的特征向量,根據Y中每個詞匯的編號生成一個答案矩陣:
則整個Transformer模型此輪訓練的誤差為:
ΔOlen(tgt)×dim=Y-(O*A×VOCtgt)
其中,O為
S3-4:準備新的訓練樣例X和Y,重復執行過程S3-1~S3-3,直到訓練輪次滿足設定閾值時,得到訓練好的Transformer模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011297709.4/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





