[發(fā)明專利]一種自動發(fā)現(xiàn)互聯(lián)網(wǎng)熱點新聞主題的方法及系統(tǒng)無效
| 申請?zhí)枺?/td> | 201210060133.9 | 申請日: | 2012-03-07 |
| 公開(公告)號: | CN102662965A | 公開(公告)日: | 2012-09-12 |
| 發(fā)明(設(shè)計)人: | 不公告發(fā)明人 | 申請(專利權(quán))人: | 上海引跑信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201203 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自動 發(fā)現(xiàn) 互聯(lián)網(wǎng) 熱點新聞 主題 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)輿情分析中熱點新聞自動發(fā)現(xiàn)領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)媒體具有巨大的引導輿論、影響受眾的影響力,網(wǎng)上形成的輿論熱點不斷,頻繁地成為社會熱點乃至引起重大輿論危機。以往通過人力去發(fā)現(xiàn)互聯(lián)網(wǎng)的熱點事件往往帶有滯后性,不能在第一時間內(nèi)發(fā)現(xiàn)這些輿論熱點,從而導致不能第一時間做出相應的應對措施,不能控制和正確的引導一個事件的發(fā)展而使事態(tài)進一步的惡化,其結(jié)果對整個社會來說會影響社會的安定團結(jié),而對企業(yè)來說會使企業(yè)的形象受損。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種自動發(fā)現(xiàn)互聯(lián)網(wǎng)熱點新聞主題的方法,就是要在第一時間內(nèi)發(fā)現(xiàn)當下輿論熱點,第一時間做出相應的應對措施,以控制或正確的引導一個事件的發(fā)展并獲得符合法律法規(guī)且公眾都能接受的結(jié)果,保證社會的和諧發(fā)展。替換掉以前那種大海撈針式的信息獲取方式。
為了達到上述目的,本發(fā)明設(shè)定了一種自動發(fā)現(xiàn)互聯(lián)網(wǎng)熱點新聞主題的方法。首先,下載互聯(lián)網(wǎng)上近期的新聞、博客、微博等類的網(wǎng)頁并提取出標題和正文,其次,對提取出來的標題和正文進行分詞獲得一個詞頻向量,所有的文章組合在一起就會獲得一個詞頻矩陣,再次,利用聚類算法對詞頻矩陣進行聚類分析,使主題相同的文章聚在一起,這樣就獲得了很多主題的聚簇,最后,我們提取每個聚簇的中心文章的標題以及每個聚簇的關(guān)鍵詞來作為該簇的解釋(即對該新聞主題的解釋)。用戶可以對機器產(chǎn)生的自動解釋進行更加合理的組合。這種方式,有效的將分析技術(shù)、人工干預加以結(jié)合,提供更加貼近用戶、更加高效的功能。
附圖說明
圖1為本發(fā)明的工作流程示意圖。
具體實施方式
下面結(jié)合附圖1對本發(fā)明所述的技術(shù)方案做進一步詳細描述。
圖1自動發(fā)現(xiàn)互聯(lián)網(wǎng)熱點新聞主題的方法所涉及的各個模塊的方框圖,其包括數(shù)據(jù)預處理器、聚類分析器和類別自動解析器三部分。數(shù)據(jù)預處理器包括新聞內(nèi)容采集和詞頻矩陣的生成兩個部分,新聞內(nèi)容采集部分主要是獲取互聯(lián)網(wǎng)上的各種新聞網(wǎng)頁并提取其中的正文,詞頻矩陣生成部分主要是對每一篇文章生成一個詞頻向量,所有的詞頻向量形成一個詞頻矩陣。聚類分析器是該方法的核心部分之一,主要是對文章進行分類。類別自動解析器是對聚類所獲得的每個類別做自動的解釋。
這個網(wǎng)頁內(nèi)容解析過程主要步驟如下:
1)采集當下互聯(lián)網(wǎng)上的各種主題類網(wǎng)頁。
2)提取新聞網(wǎng)頁的標題和正文。
3)獲得詞頻矩陣。
a)對文章進行分詞,求每個詞的詞頻及反向詞頻。
b)計算每個詞的TFIDF值(即詞頻反向詞頻)。
c)把所計算的TFIDF值組合在一起獲得一個詞頻向量(代表一篇文章)。
d)把所有的詞頻向量組合在一起獲得一個詞頻矩陣。
4)進行聚類分析,獲得一定數(shù)量的類別。
5)對每個類別進行自動解釋。
a)計算中心文章并獲得其標題。
b)提取每個類別的關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海引跑信息科技有限公司,未經(jīng)上海引跑信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210060133.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 知識發(fā)現(xiàn)裝置、知識發(fā)現(xiàn)程序和知識發(fā)現(xiàn)方法
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 發(fā)現(xiàn)協(xié)議
- 對等發(fā)現(xiàn)
- 小區(qū)發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及漏洞發(fā)現(xiàn)程序
- 使用發(fā)現(xiàn)節(jié)點的設(shè)備發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及存儲介質(zhì)
- 用于提供虛擬場景的裝置及方法
- 接入語音服務的方法、裝置和數(shù)據(jù)載體
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品





