[發明專利]基于句子關聯注意力機制的文本摘要生成方法有效
| 申請號: | 201910635509.6 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110348016B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 郭軍軍;趙瑤;余正濤;黃于欣;吳瑾娟;朱恩昌;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06N3/04 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 李曉亞 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 句子 關聯 注意力 機制 文本 摘要 生成 方法 | ||
本發明涉及基于句子關聯注意力機制的文本摘要生成方法,屬于自然語言處理技術領域。本發明首先使用分層的雙向長短期記憶Bi?LSTM網絡對文檔進行編碼,獲取句子語義向量,然后借助門控網絡分析句子間的關聯關系,實現句子級別的重要性及冗余性評估,最后提出基于句子關聯性注意力機制的解碼算法生成摘要;本發明提出在構建神經網絡摘要生成框架時,融入句子關聯性分析,提升模型對原文中句子重要性及冗余性的評估能力。本發明有效提升了生成式摘要的性能,在當前ROUGH評價指標上取得了較好的效果。
技術領域
本發明涉及基于句子關聯注意力機制的文本摘要生成方法,屬于自然語言處理技術領域。
背景技術
文本摘要是對文本內容的簡要描述,即用一段精煉的文字對文章的內容進行概括,表達原文中最重要的信息。用戶通過摘要就可以了解原文主旨,能夠解決信息過載、分析困難等問題。目前在文本摘要方面的研究工作可分為兩類,分別是抽取式和生成式。抽取式摘要通常依據一定的規則對原文本中句子重要程度進行分值估算,選擇得分高且語義上不重復的句子形成摘要,而生成式則是以理解文本語義為前提再行總結,更接近于摘要的本質。但抽取式摘要需要面對更高的信息冗余以及句子間連貫性較差等問題,生成式摘要是一種類似于人工書寫的方式對文本信息進行總結,它涉及多個子問題,如全文語義的理解,要點信息識別,同意轉述和文本歸納整理等。早期的研究嘗試將原文檔轉化為深層語義圖,在圖上進行轉化分析生成摘要,但語義圖的解析本身也是一項亟待解決的難題,在摘要應用中進展較慢。因此,本發明提出了一種新的在一定程度上模擬人工總結文檔多項要點信息時需要關注原文不同句子的認知思想,提出基于句子關聯性注意力機制的文本摘要生成方法。
發明內容
本發明提供了基于句子關聯注意力機制的文本摘要生成方法,以用于解決現有的摘要生成方法需要面對更高的信息冗余以及句子間連貫性較差等問題,以及生成摘要進展慢的問題。
本發明的技術方案是:基于句子關聯注意力機制的文本摘要生成方法,首先使用分層的雙向長短期記憶(HBi-LSTM)網絡對文檔進行編碼,分別獲取詞級、句子級向量表示,然后借助門控網絡分析句子間的關聯關系,對句子的重要性及冗余性等抽象特征進行明確地建模,最后依據句子的重要程度分配注意力權值解碼生成摘要。
所述基于句子關聯注意力機制的文本摘要生成方法的具體步驟如下:
Step1、借助互聯網爬蟲自動獲取網上的新聞文本信息作為數據來源,關注新華網、國際在線中文版以及新浪微博等國內媒體,獲取的數據包含新聞標題、正文詳情、發布時間、媒體來源等信息;收集整理了22萬余篇新聞文檔作為實驗數據,該組實驗數據并以9:0.5:0.5的比例劃分訓練集、驗證集、測試集。
Step2、對文檔進行預處理,包括分詞、去停用詞、切分句子;具體的使用NLPIR工具對文檔進行預處理;
Step3、使用分層的雙向長短期記憶Bi-LSTM網絡對文檔進行編碼,獲取全文語義向量;
作為本發明的優選方案,所述步驟Step3的具體步驟為:
Step3.1、選用Google提供的開源詞向量工具word2vec,訓練得到詞向量。每個單詞由一個字嵌入矩陣E映射得到分布表示,D表示由一系列句子組成的文檔,且在每個文檔結尾處以“endD”符號進行標記。同理,每個句子由一系列詞組成其中Ns表示句子的長度,每個句子以“ends”標記結尾;
Step3.2、采用雙向長短期記憶Bi-LSTM網絡構建分層編碼器;
(1)第一層是詞級編碼器,將輸入的詞向量轉換成句子序列:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910635509.6/2.html,轉載請聲明來源鉆瓜專利網。





