[發明專利]基于雙流注意力和位置殘差連接的文本摘要自動抽取方法在審
| 申請號: | 202210950607.0 | 申請日: | 2022-08-09 |
| 公開(公告)號: | CN115309887A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 曾駿;王子威;鐘林;陶鴻錦;周魏;文俊浩 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 重慶晟軒知識產權代理事務所(普通合伙) 50238 | 代理人: | 王海鳳 |
| 地址: | 400044 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙流 注意力 位置 連接 文本 摘要 自動 抽取 方法 | ||
1.一種基于雙流注意力和位置殘差連接的文本摘要自動抽取方法,其特征在于:包括如下步驟:
S100:選用公開數據集,該數據集包括D個文本及每個文本對應的實際摘要信息;所述每個文本包含若干條語句,且D中包含的所有語句都標有原始標簽;從帶有原始標簽的數據集中隨機抽取一部分作為訓練集,剩余部分作為測試集;
S200:構建RBPSum模型,RBPSum模型包括句子編碼器、上下文編碼器和輸出層;
所述上下文編碼器由L個句子強化層組成,每個句子強化層由多層Transformer編碼器組成,Transformer編碼器中所使用的注意力機制是雙流自注意力;
所述輸出層包括位置殘差連接模塊和概率預測模塊;
S300:設訓練集中包含P個文本和訓練數據批次為Q,將P進行Q等分得到A,即A=P/Q,對RBPSum模型進行初始化:
S400:令batch=1;
S410:從訓練集中選擇A個訓練樣本作為一個batch,batch∈[1,Q];
S420:令t=1;
S430:從訓練集中選擇第t個文本Dt,采用句子編碼器對Dt中的所有語句進行特征提取,得到Dt中每條語句的句子特征表示Et:n,其中,n表示Dt中所有文本包含的句子數量;
S440:將Et:n作為上下文編碼器的輸入,Et:n依次經過L個句子強化層,輸出得到Et:n在文檔級別的上下文特征編碼信息;
S450:使用輸出層計算并輸出Dt中的所有語句的概率值P,具體步驟如下:
S451:使用位置殘差連接模塊將Et:n與其對應的上下文特征編碼信息進行求和運算,得到與Et:n對應的、位置強化處理后的句子上下文向量計算表達式如下:
其中,β為超參數,X為句子強化層的輸出向量;
S452:使用概率預測模塊計算Dt中每條語句被選取作為摘要的概率值P,表達式如下:
其中,σ表示Sigmoid函數,P∈(0,1);
S453:將Dt中的所有語句的P值進行降序排列,選取前K個概率值所對應的語句作為對Dt的預測摘要;
S460:構建目標函數object,具體步驟如下:
S461:計算Dt的預測摘要與對應實際摘要之間的分類損失函數BCELoss;
S462:使用相似度函數計算Dt的實際摘要與對應文本特征表示之間的距離Dist1,計算表達式如下:
Dist1=CosSim(Etgt,Edoc);(3)
其中,Etgt表示實際摘要,Edoc表示文本特征表示,CosSim(·)表示余弦相似度函數;
其中,n為文本中的句子數量,q=(1,…,n),Eq表示Dt文本中第q個句子的文本特征表示;
S463:計算Dt的實際摘要中所包含語句之間的距離Dist2,計算表達式如下:
其中,Ci表示經過位置殘差連接后的句子上下文特征表示,m表示每個實際摘要中的句子數量,i=(0,…,m-1),j=i+1,j=(1,…,m);
S464:計算Dt的目標函數,表達式如下:
object=BCELoss-Dist1+Dist2; (6)
S465:根據目標函數反向傳播更新RBPSum模型參數;
S466:如果t≥A,則將當前RBPSum的模型參數記為一個checkpoint進行保存,并執行下一步;如果t<A,則令t=t+1,且返回S430;
S470:如果batch≥Q,則執行下一步;如果batch<Q,則令batch=batch+1,且返回S410;
S500:確定RBPSum模型的最終參數:
S510:從Q個checkpoint中選取一個作為當前RBPSum模型使用的參數;
S520:設測試集中含有W個文本,從W中選取第s個文本作為當前RBPSum模型的輸入,輸出得到第s個文本的預測摘要;
S530:使用貪心算法計算對第s個文本的預測摘要中的每個句子與第s個文本對應的實際摘要之間的ROUGE得分,得到若干個ROUGE得分,然后計算該若干個ROUGE得分的算術平均值Range;
S540:采用S520和S530所述方法計算W個文本對應的Range,將W個文本對應的Range求算術平均值得到該checkpoint對應的Range’;
S550:重復S520-S540,遍歷所有checkpoint,計算得到Q個Range’;
S560:將Q個Range’降序排列,選擇最高Range’對應的checkpoint作為當前RBPSum模型的參數,并將該當前RBPSum模型作為最終訓練好的RBPSum模型;
S600:將待預測文本輸入到最終訓練好的RBPSum模型中,輸出為該待預測文本的預測文本摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210950607.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種伸縮電動式潛水泵的提升架及其操作方法
- 下一篇:一種廚余垃圾收集裝置





