[發(fā)明專利]一種針對(duì)詞匯序列數(shù)據(jù)的綜合位置編碼方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011297709.4 | 申請(qǐng)日: | 2020-11-18 |
| 公開(公告)號(hào): | CN112464651B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 柳林青;徐小龍 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06F40/242 | 分類號(hào): | G06F40/242;G06F40/284;G06F40/58;G06N3/0455;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 母秋松 |
| 地址: | 210003 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 詞匯 序列 數(shù)據(jù) 綜合 位置 編碼 方法 | ||
1.一種針對(duì)詞匯序列數(shù)據(jù)的綜合位置編碼方法,其特征在于:包括如下步驟:
通過在實(shí)數(shù)空間隨機(jī)采樣生成三組詞典:源輸入和目標(biāo)輸入的詞匯編碼詞典源輸入和目標(biāo)輸入的絕對(duì)位置編碼詞典源輸入和目標(biāo)輸入的相對(duì)位置編碼鍵位詞典和相對(duì)位置編碼值位詞典其中,lsrc和ltgt分別表示源輸入詞匯編碼詞典和目標(biāo)輸入詞匯編碼詞典的大小,下標(biāo)src、tgt分別代表源輸入、目標(biāo)輸入,下標(biāo)src:K、tgt:K分別代表源輸入鍵位、目標(biāo)輸入鍵位,下標(biāo)src:V、tgt:V分別代表源輸入值位、目標(biāo)輸入值位,dim為每個(gè)特征向量的長(zhǎng)度,max_len表示數(shù)據(jù)中源輸入和目標(biāo)輸入中出現(xiàn)過的最長(zhǎng)的序列長(zhǎng)度,k表示任意兩個(gè)詞匯計(jì)算相對(duì)位置時(shí)允許的最大距離;
根據(jù)輸入中的詞匯查找到詞匯編碼詞典VOCsrc、VOCtgt中對(duì)應(yīng)的特征向量xi、yi,組成源輸入和目標(biāo)輸入詞匯特征向量組:
Xlen(src)×dim=[x1,x2…xlen(src)-1,end]
Ylen(tgt)×dim=[start,y1…ylen(tgt)-1]
len(src)-1和len(tgt)-1分別表示源輸入和目標(biāo)輸入的長(zhǎng)度,end和start分別表示語(yǔ)句的結(jié)束和開始向量;
在絕對(duì)位置詞典VOC_POsrc、VOC_POtgt中分別截取前l(fā)en(src)和len(tgt)行,生成源輸入和目標(biāo)輸入絕對(duì)位置特征向量組:
將以上數(shù)據(jù)輸入Transformer模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的Transformer模型;
所述將以上數(shù)據(jù)輸入Transformer模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的Transformer模型,具體包括如下步驟:
S3-1:對(duì)Transformer模型N層編碼器進(jìn)行訓(xùn)練,其中,第i層編碼器一端的輸入如下:
其中,Wi1Q,Wi1K,Wi1V是編碼器中的參數(shù)矩陣,bi1Q,bi1K,bi1V是編碼器中的參數(shù)向量,Xi-1為第i-1層的編碼器的輸出;
第i層編碼器另一端輸出如下:
其中,Wi2,Wi3為參數(shù)矩陣,bi2,bi3為參數(shù)向量;Xi為第i層的編碼器的輸出;
當(dāng)i=0時(shí):
X0=X+POsrc
其中,X為源輸入詞匯特征向量組,POsrc為源輸入絕對(duì)位置特征向量組,X0第1層編碼器一端的輸入;
S3-2:對(duì)Transformer模型N層解碼器進(jìn)行訓(xùn)練,其中,第i層解碼器一端的輸入如下:
其中,Wi1Q,Wi1K,Wi1V是解碼器中的參數(shù)矩陣,bi1Q,bi1K,bi1V是解碼器中的參數(shù)向量,Yi-1為第i-1層的解碼器的輸出;
第i層解碼器另一端的輸出如下:
其中,XN代表第N層編碼器的輸出,Wi1Q:context,Wi1K:context,Wi1V:context為參數(shù)矩陣,bi1Q:context,bi1K:context,bi1V:context為參數(shù)向量;
當(dāng)i=0時(shí):
Y0=Y(jié)+POtgt
其中,Yi為第i層的解碼器的輸出,Y為目標(biāo)輸入詞匯特征向量組,POtgt為目標(biāo)輸入絕對(duì)位置特征向量組,Y0第1層解碼器一端的輸入,YN為第N層解碼器的輸出,為Transformer模型的輸出、Wend、bend分別代表參數(shù)矩陣、參數(shù)向量;
S3-3:設(shè)其中,每個(gè)v代表一個(gè)目標(biāo)輸入詞匯的特征向量,根據(jù)Y中每個(gè)詞匯的編號(hào)生成一個(gè)答案矩陣:
則整個(gè)Transformer模型此輪訓(xùn)練的誤差為:
ΔOlen(tgt)×dim=Y(jié)-(O*A×VOCtgt)
其中,O為
S3-4:準(zhǔn)備新的訓(xùn)練樣例X和Y,重復(fù)執(zhí)行過程S3-1~S3-3,直到訓(xùn)練輪次滿足設(shè)定閾值時(shí),得到訓(xùn)練好的Transformer模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011297709.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





