[發明專利]基于層級交互注意力的文本摘要方法有效
| 申請號: | 201910677195.6 | 申請日: | 2019-07-25 |
| 公開(公告)號: | CN110472238B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 余正濤;周高峰;黃于欣;高盛祥;郭軍軍;王振晗 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/211;G06F40/30;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 沈艷尼 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 層級 交互 注意力 文本 摘要 方法 | ||
本發明涉及基于層級交互注意力的文本摘要方法,屬于自然語言處理技術領域。本發明通過層級交互注意力提取編碼器不同層次的特征息來指導摘要的生成。同時為了避免因引入不同層次特征而帶來的信息冗余問題,利用變分信息瓶頸壓縮數據噪聲。本發明針對生成式文本摘要,在基于注意力的編解碼框架下,通過注意力機制提取編碼器多層上下文信息來指導解碼過程,同時通過引入變分信息瓶頸對信息進行約束,從而提高生成式文本摘要的質量。實驗結果表明該方法能夠顯著改善編解碼框架在生成式摘要任務上的性能。
技術領域
本發明涉及基于層級交互注意力的文本摘要方法,屬于自然語言處理技術領域。
背景技術
隨著深度學習技術的發展,生成式文本摘要方法成為了當下研究的熱點。傳統 的基于注意力機制的編解碼模型通常僅考慮編碼器高層的語義信息作為上下文的語 義表征,而忽略了低層神經網絡獲取的詞級結構等細節特征。本發明提出一種基于 層級交互注意力機制的多層特征提取和融合方法來獲取編碼器不同層次的特征,同 時在解碼端引入變分信息瓶頸對融合信息進行壓縮和去噪,從而生成更高質量的摘 要。
發明內容
本發明提供了基于層級交互注意力的文本摘要方法,能獲取編碼器不同層次的特征,同時在解碼端引入變分信息瓶頸對融合信息進行壓縮和去噪,從而生成更高 質量的摘要,在生成摘要時不僅關注編碼器高層抽象特征,同時提取低層的細節信 息來提高摘要生成質量。
本發明的技術方案是:基于層級交互注意力的文本摘要方法,所述基于層級交 互注意力的文本摘要方法的具體步驟如下:
Step1、使用文本摘要領域英文數據集Gigaword作為訓練集,采用預處理腳本對數據集進行預處理,分別得到380萬和18.9萬的訓練集和開發集,每個訓練樣本包 含一對輸入文本和摘要句;
作為本發明的優選方案,所述步驟Step1的具體步驟為:對數據進行標準化處理,包括數據集所有單詞全部轉小寫、將所有數字替換為#,將語料中出現次數小于5次 的單詞替換為UNK標識等;從開發集中選擇一部分數據進行去除和篩選后作為測試 集。
Step2、利用雙向LSTM對訓練集進行編碼,層數設置為三層;編碼器采用雙向 長短期記憶網絡Bi-Directional LSTM,BILSTM,BILSTM包括前向和后向LSTM,前 向LSTM從左向右讀取輸入序列得到前向編碼向量,而后向LSTM從右向左讀取序 列得到后向編碼向量,最后將前向和后向編碼向量拼接得到輸入序列的向量表征。
Step3、解碼器采用單向LSTM網絡,輸入待解碼的句子計算各層上下文向量: 解碼器采用單向LSTM網絡,讀取編碼器最后時刻的狀態向量初始化,然后根據輸 入上下文表征向量,逐詞生成摘要序列,其中生成摘要的長度必須小于等于輸入序 列的長度;在解碼時,解碼器讀取上一時刻目標詞的詞嵌入向量,上一時刻的隱狀 態向量和當前時刻的上下文向量生成該時刻的隱狀態向量;引入注意力機制,根據 上一時刻解碼器的隱狀態、編碼向量計算得到當前時刻的上下文向量;然后通過當 前時刻上下文向量和隱狀態向量計算得到當前時刻的輸出向量,進而計算得到當前 時刻的輸出向量在預設目標詞表上輸出概率。
Step4、對于多層編解碼模型,編解碼器均包含多層LSTM,在每一層LSTM中 計算上層與當前層之間的隱狀態表征,從而將上層的上下文向量融合到當前層;
作為本發明的優選方案,所述步驟Step4的具體步驟為:
Step4.1、融合上層的上下文向量和隱狀態向量作為當前層的輸入;
Step4.2、將當前層的輸入送入LSTM得到當前層網絡的輸出;
Step4.3、計算多層解碼器網絡的最后一層的輸出向量,計算得到目標輸出在詞表上的概率分布。
Step5、將帶有特征信息的各層上下文向量與當前層的輸出進行拼接,得到當前層的解碼器隱狀態;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910677195.6/2.html,轉載請聲明來源鉆瓜專利網。





