[發明專利]一種基于編碼器-解碼器的生成式摘要提取方法有效
| 申請號: | 201910315538.4 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110032638B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 李媛;黃曉;陳翔 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/279;G06N3/04 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李盛洪 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 編碼器 解碼器 生成 摘要 提取 方法 | ||
1.一種基于編碼器-解碼器的生成式摘要提取方法,其特征在于,所述的生成式摘要提取方法包括以下步驟:
S1、對于給定的摘要數據集,首先進行預處理過程,經預處理后得到短文本特征和目標摘要特征Y=[y1,y2,...,yT],然后將短文本特征X輸入到由編碼器和解碼器組成的網絡中進行訓練,所述的編碼器用于對輸入短文本特征X進行編碼形成編碼向量,所述的解碼器用于對編碼向量進行解碼輸出目標摘要;
S2、將短文本特征X按時序輸入到編碼器中,所述的編碼器由單層雙向GRU網絡構成,每個時刻的單層雙向GRU網絡的輸入對應短文本特征X中的一個向量,前向GRU的輸入順序為從前往后,即從x1到后向GRU的輸入順序為從后往前,即從到x1,每個單層雙向GRU網絡在t時刻的輸入包括該時刻的文本特征向量xt和上一時刻單層雙向GRU網絡輸出的隱藏層狀態ht-1,單層雙向GRU網絡表示為:
rt=σ(Wxrxt+Whrht-1+br) (1)
zt=σ(Wxzxt+Whzht-1+bz) (2)
gt=tanh(Wxhxt+Whh(rt*ht-1)+bh) (3)
ht=zt*ht-1+(1-zt)*gt (4)
其中,xt為輸入,ht-1為上一時刻的隱藏層狀態,ht為t時刻輸出的隱藏層狀態,Wxr、Whr、Wxz、Whz、Wxh、Whh為權重矩陣,br、bz、bh為偏置,rt為重置門,zt為更新門,gt為需要更新的信息,*為點乘運算,σ(·)為Sigmoid激活函數,tanh(·)為Tanh激活函數;
將短文本特征X通過編碼器輸出t時刻的前向隱藏層狀態和后向隱藏層狀態拼接,得到t時刻最終的編碼器隱藏層狀態將所有時刻的求平均,得到用于解碼的編碼向量表示為:
其中,Te為輸入序列長度;
S3、對編碼向量進行解碼,通過解碼器第一層單向GRU網絡進行解碼,t時刻解碼器第一層單向GRU網絡的輸入包括上一時刻本層單向GRU網絡輸出的隱藏層狀態和上一時刻的解碼器輸出yt-1,其中,單向GRU網絡隱藏層狀態的初始值為步驟S2中的編碼向量本層t時刻的輸出為隱藏層狀態本層單向GRU網絡在t時刻的解碼結果表示為:
其中,GRU1(·)表示第一層解碼器基本單元為GRU網絡,yt-1為上一時刻的解碼輸出,為第一層解碼器單向GRU網絡上一時刻輸出的隱藏層狀態,初始狀態為編碼向量
S4、根據編碼器的輸出隱藏層狀態和解碼器第一層單向GRU網絡的輸出隱藏層狀態計算輸出注意力向量ct,表示為:
其中,為編碼器在j時刻的隱藏層狀態,為解碼器第一層單向GRU網絡在i時刻的隱藏層狀態,ai,j為編碼器的隱藏層狀態對解碼器第一層單向GRU網絡的隱藏層狀態的權重,為權重矩陣,ba為偏置,v為線性轉換向量,Te為輸入序列長度,tanh(·)為Tanh激活函數,ct為注意力向量,ei,j為中間計算變量;
S5、通過解碼器第二層單向GRU網絡進行解碼,t時刻第二層單向GRU網絡的輸入包括上一時刻本層GRU輸出的隱藏層狀態上一時刻的解碼器輸出yt-1以及注意力向量ct,GRU隱藏層狀態的初始值為編碼向量本層t時刻的輸出為隱藏層狀態本層單向GRU網絡在t時刻的解碼結果表示為:
其中,GRU2(·)表示第二層解碼器基本單元為GRU網絡,yt-1為上一時刻的解碼輸出,為解碼器第二層單向GRU網絡上一時刻輸出的隱藏層狀態,初始狀態為編碼向量ct為注意力向量;
S6、通過解碼器第三層進行變分自編碼過程,其中,第三層是單向變分自編碼網絡,t時刻的變分自編碼網絡輸入包括解碼器第一層單向GRU網絡上一時刻輸出的隱藏層狀態本層上一時刻輸出的潛在結構信息zt-1以及上一時刻的解碼器輸出yt-1,上述輸入先通過神經網絡得到均值μt和標準差σt,再通過一個高斯分布的輔助噪聲變量ε~N(0,I)作用輸出潛在結構信息zt,第三層變分自編碼在t時刻的解碼結果表示為:
zt=μt+σt*ε (14)
其中,為權重矩陣,為偏置,yt-1為上一時刻的解碼輸出,zt-1為變分自編碼層上一時刻輸出的潛在結構信息,為解碼器第一層單向GRU網絡上一時刻輸出的隱藏層狀態,μt和σt為變分自編碼層通過神經網絡生成的均值和標準差,σ(·)為Sigmoid激活函數;
S7、計算解碼器的生成部分輸出,t時刻的生成部分包括解碼器第三層的變分自編碼網絡在t時刻輸出的潛在結構信息zt和解碼器第二層單向GRU網絡在t時刻輸出的隱藏層狀態t時刻的生成部分輸出表示為:
其中,為權重矩陣,為偏置,tanh(·)為Tanh激活函數;
S8、接著計算概率開關pswitch,概率開關的輸入包括t時刻得到的注意力向量ct和解碼器第二層單向GRU網絡在t時刻輸出的隱藏層狀態t時刻的概率開關表示為:
其中,σ(·)為Sigmoid激活函數,為權重矩陣,為偏置;
S9、計算解碼器的輸出,將解碼器的生成部分和復制部分用概率開關pswitch進行加權求和,得到解碼器t時刻的輸出隱藏層狀態h,表示為:
其中,為生成部分的隱藏層狀態;
將解碼器的輸出隱藏層狀態h映射為解碼器的輸出yt,解碼器t時刻的輸出為:
其中,為權重矩陣,為偏置,softmax(·)為歸一化函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910315538.4/1.html,轉載請聲明來源鉆瓜專利網。





