[發明專利]基于LDA的網絡輿情文檔自動摘要方法有效
| 申請號: | 201810585763.5 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN108874775B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 孫健;朱煜松;陸川;張明 | 申請(專利權)人: | 成都云數未來信息科學有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/953 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 楊春 |
| 地址: | 610000 四川省成都市雙流*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 lda 網絡 輿情 文檔 自動 摘要 方法 | ||
本發明公開了基于LDA的網絡輿情文檔自動摘要方法,包括步驟:確定需要抽取的摘要個數n;利用訓練文檔集產生LDA主題模型;將文檔分成句子存入數組Sens中;建立一個空的數組Sums;遍歷語料集中的每一個句子,計算句子的MMR權重,句子和數組間的相似度,相似度用來解釋MMR權重公式;遍歷完成后,選擇Sens中MMR權重最大的句子,加入Sums,并從Sens中剔除;如果Sums中的句子個數等于要抽取的摘要個數n,則進入下一步驟,否則返回上一步驟;輸出Sums中的句子,作為本次自動摘要的結果。本發明通過基于LDA的相似度計算方法,提高了摘要句與主題的相關性;平衡了相關性和多樣性,對于網絡輿情文檔等多主題的文檔具有非常好的效果。
技術領域
本發明屬于機器學習和自動摘要技術領域,具體涉及基于LDA的網絡輿情文檔自動摘要方法。
背景技術
自動摘要是指從文檔中抽取能準確全面地反映文檔中心內容的簡潔連貫的 句子或短文。對于網絡輿情文檔而言,其文檔內容表達的主題信息通常并不單 一,可能圍繞一個核心主題,并向外發散了若干個非核心主題,或者說子主題, 是一個“1+N”的模式。
傳統的自動摘要方法只計算文檔的句子的重要性,沒有反映文檔核心主題和非核心主題在文檔中的分布信息和重要程度,更沒有對文檔的主題特征進行提取分析處理,并且在摘要句的抽取過程中,不能消除重復或者相似程度較高的句子對摘要的影響,因此很難處理網絡輿情文檔。
傳統自動摘要方法對網絡輿情文檔處理的不足,其主要是未能平衡相關性和多樣性;相關性是指與原文檔主題的相關程度,相關性越大就越能反映文檔的主題信息。而多樣性則是評價摘要與原文檔的多個主題的覆蓋程度,多樣性越大就越能全面覆蓋到文檔的各個主題,防止摘要過度集中在核心主題,而忽視了非核心主題在文檔中的作用。
為了解決以上問題我方研發出了一種基于LDA的網絡輿情文檔自動摘要方法。
發明內容
本發明的目的就在于為了解決上述問題而提供一種基于LDA的網絡輿情文檔自動摘要方法,利用LDA反映句子之間的主題相似度,并通過MMR去除摘要句子的冗余。
本發明通過以下技術方案來實現上述目的:
基于LDA的網絡輿情文檔自動摘要方法,包括以下步驟:
(1)確定需要抽取的摘要個數n,進入下一步驟;
(2)利用訓練文檔集產生LDA主題模型,進入下一步驟;
(3)將文檔分成句子存入數組Sens中,進入下一步驟;
(4)建立一個空的數組Sums,進入下一步驟;
(5)遍歷語料集中的每一個句子,計算句子的MMR權重,公式如下所示:
MMR(Si)=λ·Sim(Si,Sens-i)-(1-λ)·Sim(Si,Sums)
式中的Si表示語料集中第i個句子;
λ∈[0,1],是人工設置的參數,可以根據測試文檔來選取合適的值;
Sens-i即Sens中除去Si;
Sim(Sentence,List)是句子Sentence和數組List間的相似度,其計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都云數未來信息科學有限公司,未經成都云數未來信息科學有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810585763.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于意圖理解的服務調用方法和系統
- 下一篇:一種垃圾文本的識別方法及裝置





