[發明專利]基于TextRank和深度神經網絡的情感摘要抽取方法在審
| 申請號: | 202111022446.0 | 申請日: | 2021-09-01 |
| 公開(公告)號: | CN113743113A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 金勇;胡林利;陳宏明 | 申請(專利權)人: | 武漢長江通信產業集團股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06F40/117;G06F16/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 劉點 |
| 地址: | 430000 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 textrank 深度 神經網絡 情感 摘要 抽取 方法 | ||
本發明公開了基于TextRank和深度神經網絡的情感摘要抽取方法,包括如下步驟:數據采集、監督式模型訓練、無監督式摘要提取、文本情感摘要生成。本發明基于TextRank和深度神經網絡的情感摘要抽取方法,采用LSTM+ATT+CNN的監督式方法訓練情感句子向量,用來更新TextRank文本網絡中的權重得分,進而提取具有情感色彩的摘要。針對較長文本,利用基于情感的文本向量來計算文本(句子或段落)之間的相似距離,相比基于BM25相似性的TextRank摘要提取方法更能準確地提取情感主題句,更能顯示文章作者的情感核心內容,更具可讀性。
技術領域
本發明涉及文本理解和機器學習分析領域,尤其涉及基于TextRank和深度神經網絡的情感摘要抽取方法。
背景技術
隨著互聯網信息技術的突飛猛進,網路平臺中存在海量信息,而針對這些海量信息進行有效篩選和讀取是一個重要研究方向。特別地,對于長文本信息,提取出帶有情感色彩的簡短摘要,可以大大提高閱讀效率。
摘要提取一般分為生成式方法和抽取式方法。生成式方法是根據文檔表達的重要內容來自行組織語言,從而對源文檔進行概括。抽取式方法是通過抽取源文檔中的關鍵句子來組合生成摘要的。目前文本生成算法存在一定的技術瓶頸,雖然最新的GPT算法在文本生成方面取得了較好的成績,但是產業化中的可讀性與準確性還存在一定的差異。因此本發明中主要考慮抽取式摘要生成方法,即將長文本拆分成若干短句,然后根據權重重要性對短句進行排序,進而提取出若干短句組成摘要。
普通TextRank摘要抽取方法,句子間的權重衡量一般是基于BM25算法的相關性度量方法,即將文檔定義為含有規范化BM25 TF值的元素,其中每個詞的權重一般采取IDF(Inverse Document Frequency)方法。本發明基于TextRank方法,結合深度學習神經網絡方法,針對長文本進行摘要提取,并且摘要中盡可能包含文檔情感觀點信息,使得可讀性更強。為此,我們提出基于TextRank和深度神經網絡的情感摘要抽取方法。
發明內容
基于背景技術存在的技術問題,本發明提出了基于TextRank和深度神經網絡的情感摘要抽取方法,采用TextRank的無監督方法和LSTM+注意力機制(ATT)+卷積神經網絡(CNN)的情感監督式方法相結合的方法提取情感摘要,解決了現有文本生成算法,產業化中的可讀性與準確性還存在一定的差異的問題。
本發明提供如下技術方案:基于TextRank和深度神經網絡的情感摘要抽取方法,包括如下步驟:
S1、數據采集:采集源數據經過數據清洗之后,進行相應的數據標注和知識整理得到數據集;
S2、監督式模型訓練:針對LSTM+ATT+CNN網絡模型進行訓練,訓練得到文檔短句子向量;
S3、無監督式摘要提取:根據pearson系數計算句子向量相似度矩陣,利用監督式的句子向量更新文本網絡權重;
S4、文本情感摘要生成:根據最新的網絡權重得分進行排序,按照TopK原則選取關鍵句,并根據關鍵詞在文中出現的順序,組合成情感摘要。
優選的,所述步驟S2中對LSTM+ATT+CNN網絡模型的結構依次包括四個層次:輸入層、LSTM層、注意力機制層以及卷積全連接層,處理過程是:以sentence2vec得到的句子向量作為初始向量;通過LSTM網絡學習序列間的初始序列特征;構建sentence level的注意力機制模型進一步得到局部區域的文本向量表達形式;最后結合卷積神經網絡全連接方式進行監督式訓練網絡參數。
優選的,所述步驟S3中根據得到的句子向量計算句子權重W2,從而更新上述的句子權重,得到W3=λ*W1+(1-λ)*W2,其中λ是調節系數;針對W3構成的TextRank文本網絡圖,進行句子重要性排序。
優選的,所述步驟S3中通過對文本進行分拆,以每一個句子或短語為節點,構建TextRank文本網絡圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢長江通信產業集團股份有限公司,未經武漢長江通信產業集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111022446.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種濾芯
- 下一篇:一種工業泵性能測試系統和方法





