[發(fā)明專利]一種文本填充方法及裝置在審
| 申請?zhí)枺?/td> | 202010801195.5 | 申請日: | 2020-08-11 |
| 公開(公告)號: | CN112069810A | 公開(公告)日: | 2020-12-11 |
| 發(fā)明(設(shè)計)人: | 蔡曉東;田文靖 | 申請(專利權(quán))人: | 桂林電子科技大學(xué) |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京輕創(chuàng)知識產(chǎn)權(quán)代理有限公司 11212 | 代理人: | 尉保芳 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 填充 方法 裝置 | ||
1.一種文本填充方法,其特征在于,包括如下步驟:
S1:對輸入樣本進(jìn)行預(yù)處理,得到帶有多個空白位置的缺失樣本;
S2:對所述缺失樣本進(jìn)行編碼,得到編碼層語義向量;
S3:基于注意力機制算法對所述編碼層語義向量中的多個空白位置進(jìn)行填充,得到預(yù)測層語義向量和多個用于填充所述空白位置的填充詞,并分別對各個填充至所述空白位置的詞進(jìn)行標(biāo)記,得到多個標(biāo)記填充詞;
S4:根據(jù)多個所述標(biāo)記填充詞對所述編碼層語義向量和所述預(yù)測層語義向量進(jìn)行損失分析,得到填充文本。
2.根據(jù)權(quán)利要求1所述的文本填充方法,其特征在于,所述步驟S1的過程包括:
利用隨機屏蔽算法對所述輸入樣本進(jìn)行預(yù)處理,得到缺失樣本,具體為:
S11:通過預(yù)設(shè)第一占位符隨機對所述輸入樣本中的詞進(jìn)行替換,得到第一缺失樣本;
S12:將預(yù)設(shè)第二占位符添加至所述第一缺失樣本中所述預(yù)設(shè)第一占位符的開頭,得到第二缺失樣本;
S13:將預(yù)設(shè)第三占位符添加至所述第二缺失樣本中所述預(yù)設(shè)第一占位符的結(jié)尾,得到第三缺失樣本;
S14:將預(yù)設(shè)第四占位符添加至所述第三缺失樣本的開頭,得到第四缺失樣本;
S15:將預(yù)設(shè)第五占位符添加至所述第四缺失樣本的結(jié)尾,得到缺失樣本。
3.根據(jù)權(quán)利要求2所述的文本填充方法,其特征在于,所述步驟S2的過程包括:
S21:利用詞嵌入算法對所述缺失樣本進(jìn)行詞向量化處理,得到詞向量矩陣;
S22:將所述詞向量矩陣輸入至雙向LSTM網(wǎng)絡(luò)中,得到編碼層語義向量。
4.根據(jù)權(quán)利要求3所述的文本填充方法,其特征在于,所述步驟S22的過程包括:
通過第一方程組對所述詞向量矩陣進(jìn)行計算,得到編碼層語義向量,所述第一方程組包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通過第一式得到遺忘門輸出,所述第一式為:
ft=σ(Wfwt+Ufht-1+bf),
通過第二式得到輸入門輸出,所述第二式為:
it=σ(Wiwt+Uiht-1+bi),
通過第三式得到輸出門輸出,所述第三式為:
ot=σ(Wowt+Uoht-1+bo),
通過第四式得到新的記憶信息,所述第四式為:
通過第五式得到更新的LSTM網(wǎng)絡(luò)單元的記憶信息,所述第五式為:
ct=ft⊙ct-1+it⊙ct,
通過第六式得到編碼層語義向量,所述第六式為:
ht=ottanh(ct),
其中,ft為遺忘門輸出,it為輸入門輸出,ot為輸出門輸出,Wf為遺忘門權(quán)重矩陣,Wi為輸入門權(quán)重矩陣,Wo為輸出門權(quán)重矩陣,Wc為選擇門權(quán)重矩陣,bf為遺忘門偏置向量,bi為輸入門偏置向量,bo為輸出門偏置向量,bc為選擇門偏置向量,Uf為遺忘門權(quán)重矩陣,Ui為輸入門權(quán)重矩陣,Uo為輸出門權(quán)重矩陣,Uc為選擇門權(quán)重矩陣,為新的記憶信息,ct為更新的LSTM網(wǎng)絡(luò)單元的記憶信息,ct-1為上一時刻的LSTM網(wǎng)絡(luò)單元的記憶信息,tanh()為雙曲正切函數(shù),σ為sigmoid激活函數(shù),⊙為元素乘積,ht-1為t-1時刻的隱藏層輸出,wt為t時刻的輸入信息,ht為編碼層語義向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林電子科技大學(xué),未經(jīng)桂林電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010801195.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





