[發(fā)明專利]基于句子關(guān)聯(lián)注意力機制的文本摘要生成方法有效
| 申請?zhí)枺?/td> | 201910635509.6 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110348016B | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計)人: | 郭軍軍;趙瑤;余正濤;黃于欣;吳瑾娟;朱恩昌;相艷 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06N3/04 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 李曉亞 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 句子 關(guān)聯(lián) 注意力 機制 文本 摘要 生成 方法 | ||
本發(fā)明涉及基于句子關(guān)聯(lián)注意力機制的文本摘要生成方法,屬于自然語言處理技術(shù)領(lǐng)域。本發(fā)明首先使用分層的雙向長短期記憶Bi?LSTM網(wǎng)絡(luò)對文檔進(jìn)行編碼,獲取句子語義向量,然后借助門控網(wǎng)絡(luò)分析句子間的關(guān)聯(lián)關(guān)系,實現(xiàn)句子級別的重要性及冗余性評估,最后提出基于句子關(guān)聯(lián)性注意力機制的解碼算法生成摘要;本發(fā)明提出在構(gòu)建神經(jīng)網(wǎng)絡(luò)摘要生成框架時,融入句子關(guān)聯(lián)性分析,提升模型對原文中句子重要性及冗余性的評估能力。本發(fā)明有效提升了生成式摘要的性能,在當(dāng)前ROUGH評價指標(biāo)上取得了較好的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及基于句子關(guān)聯(lián)注意力機制的文本摘要生成方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
文本摘要是對文本內(nèi)容的簡要描述,即用一段精煉的文字對文章的內(nèi)容進(jìn)行概括,表達(dá)原文中最重要的信息。用戶通過摘要就可以了解原文主旨,能夠解決信息過載、分析困難等問題。目前在文本摘要方面的研究工作可分為兩類,分別是抽取式和生成式。抽取式摘要通常依據(jù)一定的規(guī)則對原文本中句子重要程度進(jìn)行分值估算,選擇得分高且語義上不重復(fù)的句子形成摘要,而生成式則是以理解文本語義為前提再行總結(jié),更接近于摘要的本質(zhì)。但抽取式摘要需要面對更高的信息冗余以及句子間連貫性較差等問題,生成式摘要是一種類似于人工書寫的方式對文本信息進(jìn)行總結(jié),它涉及多個子問題,如全文語義的理解,要點信息識別,同意轉(zhuǎn)述和文本歸納整理等。早期的研究嘗試將原文檔轉(zhuǎn)化為深層語義圖,在圖上進(jìn)行轉(zhuǎn)化分析生成摘要,但語義圖的解析本身也是一項亟待解決的難題,在摘要應(yīng)用中進(jìn)展較慢。因此,本發(fā)明提出了一種新的在一定程度上模擬人工總結(jié)文檔多項要點信息時需要關(guān)注原文不同句子的認(rèn)知思想,提出基于句子關(guān)聯(lián)性注意力機制的文本摘要生成方法。
發(fā)明內(nèi)容
本發(fā)明提供了基于句子關(guān)聯(lián)注意力機制的文本摘要生成方法,以用于解決現(xiàn)有的摘要生成方法需要面對更高的信息冗余以及句子間連貫性較差等問題,以及生成摘要進(jìn)展慢的問題。
本發(fā)明的技術(shù)方案是:基于句子關(guān)聯(lián)注意力機制的文本摘要生成方法,首先使用分層的雙向長短期記憶(HBi-LSTM)網(wǎng)絡(luò)對文檔進(jìn)行編碼,分別獲取詞級、句子級向量表示,然后借助門控網(wǎng)絡(luò)分析句子間的關(guān)聯(lián)關(guān)系,對句子的重要性及冗余性等抽象特征進(jìn)行明確地建模,最后依據(jù)句子的重要程度分配注意力權(quán)值解碼生成摘要。
所述基于句子關(guān)聯(lián)注意力機制的文本摘要生成方法的具體步驟如下:
Step1、借助互聯(lián)網(wǎng)爬蟲自動獲取網(wǎng)上的新聞文本信息作為數(shù)據(jù)來源,關(guān)注新華網(wǎng)、國際在線中文版以及新浪微博等國內(nèi)媒體,獲取的數(shù)據(jù)包含新聞標(biāo)題、正文詳情、發(fā)布時間、媒體來源等信息;收集整理了22萬余篇新聞文檔作為實驗數(shù)據(jù),該組實驗數(shù)據(jù)并以9:0.5:0.5的比例劃分訓(xùn)練集、驗證集、測試集。
Step2、對文檔進(jìn)行預(yù)處理,包括分詞、去停用詞、切分句子;具體的使用NLPIR工具對文檔進(jìn)行預(yù)處理;
Step3、使用分層的雙向長短期記憶Bi-LSTM網(wǎng)絡(luò)對文檔進(jìn)行編碼,獲取全文語義向量;
作為本發(fā)明的優(yōu)選方案,所述步驟Step3的具體步驟為:
Step3.1、選用Google提供的開源詞向量工具word2vec,訓(xùn)練得到詞向量。每個單詞由一個字嵌入矩陣E映射得到分布表示,D表示由一系列句子組成的文檔,且在每個文檔結(jié)尾處以“endD”符號進(jìn)行標(biāo)記。同理,每個句子由一系列詞組成其中Ns表示句子的長度,每個句子以“ends”標(biāo)記結(jié)尾;
Step3.2、采用雙向長短期記憶Bi-LSTM網(wǎng)絡(luò)構(gòu)建分層編碼器;
(1)第一層是詞級編碼器,將輸入的詞向量轉(zhuǎn)換成句子序列:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910635509.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報文關(guān)聯(lián)方法、報文關(guān)聯(lián)裝置及報文關(guān)聯(lián)系統(tǒng)





