[發明專利]一種層次化新聞熱點及其演化的挖掘與可視化方法有效
| 申請號: | 201710198955.6 | 申請日: | 2017-03-29 |
| 公開(公告)號: | CN106951554B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 湯斯亮;董浩靈;吳飛;吳江琴;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/33;G06F16/34;G06F16/35 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高;傅朝棟 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 層次 新聞 熱點 及其 演化 挖掘 可視化 方法 | ||
本發明公開了一種層次化新聞熱點及其演化的挖掘與可視化方法。包括如下步驟:1).利用概率主題建模技術挖掘由抽象到具體的具有層次化結構的新聞熱點。2).提出全新的“Nested?circle”可視化布局對層次化的新聞熱點進行可視化。3).利用相對熵方法挖掘相鄰時間片同一粒度的層次化新聞熱點的關聯性,即新聞熱點在時序上的演化行為。4).采用動態可視化技術呈現新聞熱點在時序上的演化行為。5).結合上述層次化新聞熱點及其演化的挖掘與可視化技術,集成了“層次化新聞熱點及其演化的分析系統”,方便讀者分析層次化新聞熱點及其演化。
技術領域
本發明涉及新聞文本的熱點挖掘與可視化,尤其涉及一種層次化新聞熱點及其演化的挖掘與可視化方法。
背景技術
在如今互聯網和大數據日益發展的背景下,各類數據通過互聯網各異地互聯網平臺被大量產生出來。新聞報道由于敘述詳實規范,來源可靠,觀點客觀等特點,是互聯網海量數據中一個重要的信息來源,新聞文本對于經濟形勢研究、國內國際政治研究、商業決策研究、社會文化研究、甚至科學技術發展方向研究等領域都有著十分重要的作用。從海量地新聞數據分析篩選出有價值的信息需要耗費大量的資源,因此如何運用計算機技術自動歸納出有價值的值得關注的新聞話題,即新聞熱點,并通過可視化方法將新聞熱點的內容全方位地呈現給用戶,是一個重要的研究課題。
新聞熱點挖掘技術能夠對海量新聞文本進行準確而高效地分析,并歸納一個時間范圍內發生的有價值的新聞熱點。新聞熱點挖掘技術主要有基于監督學習和基于無監督學習兩種方式。監督學習方式需要大量的標注數據對挖掘模型進行訓練,而新聞文本大多不是結構化的,獲取大量標注信息的代價很大,所以本文認為無需使用標注數據訓練模型的基于非監督學習的新聞熱點挖掘技術更具研究價值。其中非常有效的一種方式就是概率主題建模技術。概率主題建模技術以Blei等人提出的隱形狄利克雷分布(Latent DirichletAllocation,LDA)為代表,可以用來發現新聞文本中的隱含語義,對新聞文本中語義相關的單詞進行聚類,從而挖掘新聞熱點。挖掘出新聞熱點后,我們希望以盡可能少的時間,來獲得盡可能多的信息,比如一段時間范圍內的新聞熱點,與新聞熱點相關的新聞文本原文,新聞熱點的情感色彩等信息,于是新聞熱點可視化技術研究也日益增多,通過可視化技術,我們可以從各個維度解釋和分析大量的新聞文本數據。
通過傳統的LDA概率主題建模挖掘新聞熱點的技術雖然可以獲取文本中隱含的語義信息,但是也具有很多的局限性。首先LDA無法挖掘出熱點的層次性結構。在現實世界中,熱點本身是具有層次性的,比如一個關于“體育”的熱點,會包含“奧運會”、“世界杯”、“世錦賽”等子熱點。所以在挖掘新聞熱點的同時,我們也需要了解熱點間的層次結構關聯。再者,LDA無法挖掘出新聞熱點在時間上的演化過程。隨著時間推進,新聞熱點的內容會逐漸發生變化,同時,很多新的新聞熱點也會產生,而舊的新聞熱點可能會消失。比如2016年10月,有“美國大選”這個熱點,而在2016年11月,這個熱點可能會演化為“特朗普當選”。所以我們在了解新聞熱點的結構關聯的同時,還需要了解新聞熱點隨時間的演化。基于新聞熱點具有層次結構關聯性、時序關聯性這兩個特性和LDA在這兩方面的不足,我們需要一種同時挖掘新聞熱點層次結構、時序關聯的方法,能夠深度挖掘新聞熱點的層次關聯和隨時間的演化過程。
可視化技術的目的是將雜亂的、高密度的數據用各種方式整理之后呈現給用戶,使用戶可以方便的從復雜的數據中獲取有用的信息。面對互聯網中海量的新聞數據,可視化技術必不可少。迄今為止,文本可視化技術的應用主要有對特定領域學術論文文本進行可視化、對新聞文本進行可視化以及對詞典百科文本進行可視化等。由于新聞本文跨越了不同領域,語義內容豐富,因此需要大量不同的可視化技術方式來呈現,例如呈現新聞熱點本身、新聞熱點詞、新聞文本原文、新聞相關圖片等等。同時也要展現新聞熱點的層次結構以及新聞熱點在時序上的演化過程。所以對新聞文本以及層次化新聞熱點及其演化的可視化研究也成為了非常重要的理解新聞數據的方式。
發明內容
本發明的目的在于解決現有技術中存在的問題,并提供一種層次化新聞熱點及其演化的挖掘與可視化方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710198955.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種制藥粉碎機
- 下一篇:一種飼料超微粉碎機的喂料器





