[發明專利]一種基于增強語義的自動文本摘要方法有效
| 申請號: | 201810281684.5 | 申請日: | 2018-04-02 |
| 公開(公告)號: | CN108804495B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 史景倫;洪冬梅;寧培陽;王桂鴻 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 增強 語義 自動 文本 摘要 方法 | ||
本發明公開了一種基于增強語義的自動文本摘要方法,步驟如下:對文本預處理,按照詞頻信息從高到低排列,將詞轉為id;利用一個單層雙向LSTM將輸入序列進行編碼,提取文本信息特征;利用單層單向LSTM將編碼得到的文本語義向量進行解碼獲得隱層狀態;進行語境向量的計算,提取輸入序列中與當前輸出最有用的信息;在解碼后得到一個詞表大小的概率分布,采取一定的策略進行摘要詞選擇,訓練階段將融合生成摘要和源文本的語義相似度進行損失計算,提高摘要和源文本的語義相似度。本發明利用LSTM深度學習模型對文本進行表征,融入上下文的語義聯系,并增強了摘要和源文本的語義關系,生成的摘要更能契合文本的主題思想,應用前景廣泛。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于增強語義的自動文本摘要方法。
背景技術
隨著科技和互聯網的快速發展,大數據時代的來臨,鋪天蓋地的網絡信息與日俱增。其中,具有代表性的文本信息量的爆炸性增長,如新聞、博客、聊天、報告、微博等,使得信息負擔過重,龐大的信息使得人們在瀏覽閱讀時花費大量時間。因此,如何快速從大量文本信息中提取關鍵內容,解決信息過載的問題,已成為一個迫切的需求,自動文本摘要技術應運而生。
自動文本摘要技術按照生成摘要類型可分為抽取式摘要和生成式摘要。前者是將原文中的句子按照一定的方法來進行重要性排序,將重要性最高的前n個句子作為摘要;后者是通過挖掘更深層次的語義信息,對原文中心思想進行轉述,概括。對于抽取式摘要已經由大量的研究,但是這種方法只是停留在表面的詞匯信息,而生成式摘要更符合人產生摘要的過程。
近幾年來,由于深度學習的興起,在許多領域取得了不多的成績,也被引入了自動文摘領域。基于序列到序列seq2seq模型,可以實現生成式摘要,借鑒機器翻譯的成功應用,基于seq2seq模型的自動文摘已成為自然語言處理的研究熱點,但還存在一些連貫性,可讀性的問題。傳統的抽取式摘要通常會造成很大的信息損失,尤其體現在長文本中,因此深入研究生成式自動文摘,對于真正解決信息過載具有重要意義。
發明內容
本發明的目的是為了解決現有技術中的上述缺陷,提供一種基于增強語義的自動文本摘要方法,該方法基于seq2seq模型,在引入注意力機制的同時,利用生成摘要與源文本的語義相似性來訓練,提高生成摘要與源文本的語義相關度,提高摘要質量。
本發明的目的可以通過采取如下技術方案達到:
一種基于增強語義的自動文本摘要方法,所述的自動文本摘要方法包括:
文本預處理步驟,對文本進行分詞、形態還原以及指代消解,按照詞頻信息從高到低排列,將詞轉為id;
編碼步驟,將輸入序列進行編碼,經過神經網絡得到攜帶文本序列信息的隱藏層狀態向量;
解碼步驟,將由編碼器得到的最后隱藏層狀態進行初始化,開始進行解碼獲得每一步隱藏層狀態st;
注意力分布計算步驟,結合輸入序列的隱藏層狀態與當前時刻解碼獲得的隱藏層狀態st進行語境向量的計算,得到當前t時刻的語境向量ut;
摘要生成步驟,將解碼步驟得到的輸出經過兩個線性層映射為詞表大小維度的向量,每一個維代表詞表中單詞的概率,用一定選擇策略選出候選詞,生成摘要。
進一步地,所述的文本預處理步驟中文本的數據是通過爬蟲爬取的語料庫或開源的語料庫,并由文章-摘要對組成。
進一步地,所述的文本預處理步驟中,獲取前200k的詞作為基本詞表,同時將特殊標記[PAD]、[UNK]、[START]和[STOP]加入詞表,并把文本的詞轉為id,每一篇對應一個序列。
進一步地,所述的輸入序列是將文本經過轉換后獲得的id序列對應的詞向量,詞向量維度128,序列最大長度取為700。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810281684.5/2.html,轉載請聲明來源鉆瓜專利網。





