[發明專利]互聯網新聞的輿情聚類分析方法、應用服務器及計算機可讀存儲介質在審
| 申請號: | 201711060246.8 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN107908694A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 張師琲;侯麗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q50/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙)44347 | 代理人: | 于志光,郭夢霞 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 新聞 輿情 聚類分析 方法 應用 服務器 計算機 可讀 存儲 介質 | ||
技術領域
本發明涉及數據分析技術領域,尤其涉及一種互聯網新聞的輿情聚類分析方法、應用服務器及計算機可讀存儲介質。
背景技術
隨著Internet的迅猛發展,網絡信息已經成為人們生活中必不可少的一部分,目前中國網民數量已經超過2億,中國網頁數量也超過了80億。網絡媒體已被公認為繼報紙、廣播和電視之后的"第四媒體",網絡成為反應社會輿情的主要載體之一。網絡輿情與社會輿情相互作用、相互影響,網絡輿情與社會輿情在內容表現形態方面具有一致性,網絡輿情一定程度上會影響社會輿情的發展趨勢,因此網絡輿情熱點話題的發現具有十分重要的意義。
而各大互聯網站的新聞熱點層出不窮,抓取并找出這些新聞輿情熱點,對互聯網信息發布、輿情監督等都有重要意義。
因此,如何從互聯網的海量信息中發現熱點并呈現給用戶,成為當下亟需解決的一大問題。
發明內容
有鑒于此,本發明提出一種互聯網新聞的輿情聚類分析方法、應用服務器及計算機可讀存儲介質,以解決如何從互聯網的海量信息中發現熱點并呈現給用戶的問題。
首先,為實現上述目的,本發明提出一種互聯網新聞的輿情聚類分析方法,該方法包括步驟:
通過分布式爬蟲在信息源獲取新聞類信息,并存儲到輿情數據庫中;
對所述輿情數據庫中的數據進行去噪、分詞、聚類;
對聚類后的不同類新聞分別歸納主題摘要;及
將聚類后的新聞及所述主題摘要輸出,并顯示給用戶。
優選地,所述信息源包括新聞網站、微博、微信、貼吧及論壇。
優選地,所述去噪步驟包括:
過濾圖片、版權說明、廣告,獲得文檔信息;及
過濾停用詞。
優選地,所述的分詞步驟還包括:
運用中文分詞技術對采集到的所述新聞類信息進行分詞。
優選地,所述聚類步驟包括:
設置包括敏感詞、情感詞的參照表;
獲得關鍵詞,并根據獲得的關鍵詞設置關鍵詞參照表;
對照所述敏感詞、情感詞及關鍵詞參照表分析出所述新聞類信息中的關鍵詞、敏感詞和帶有情感傾向的詞語;
根據關鍵詞、情感詞、敏感詞將所述新聞類信息按照網頁所屬類別自動聚類;及
對聚類后的新聞按照熱度進行排序。
優選地,所述獲得所述關鍵詞,并根據獲得的所述關鍵詞設置關鍵詞參照表的步驟還包括:
對分詞之后的所述新聞類信息進行分析,統計詞語出現的頻率,出現的位置及歷史平均頻率;
根據如下公式獲得詞語的重要度D:
D=a*Fn+∑bi*Wi+c*Fh,i=1,2,3…n;及
根據所述重要度D對各詞語進行排序,將所述重要度D大于預設值的詞語作為所述關鍵詞并生成所述關鍵詞參照表;
其中,a,b,c為詞語當時出現的頻率,位置及歷史平均頻率對應的權重值;Fn,Wi,Fh分別對應詞語出現的頻率,出現的位置,所述歷史平均頻率。
優選地,所述對聚類后的不同類新聞分別歸納主題摘要的步驟還包括:
對該新聞的正文進行分句,并保留句子長度在預設長度范圍內的句子,記為保留句子;
分別計算所述保留句子與標題的相似度S(s),以及所述保留句子的權重Q(s);
根據公式R(s)=Q(s)/S(S)計算所述保留句子的排序分;及
選取排序分最高的所述保留句子作為同類新聞的摘要;
其中,R(s)為所述保留句子的排序分。
優選地,計算所述相似度S(s)的步驟如下:
基于同義詞詞庫對所述保留句子和標題進行同義詞轉換;及
針對同義詞轉換后的所述保留句子和標題采用Jaccard距離計算保留句子和標題的相似度S(s)。
此外,為實現上述目的,本發明還提供一種應用服務器,包括存儲器、處理器,所述存儲器上存儲有可在所述處理器上運行的互聯網新聞的輿情聚類分析系統,所述互聯網新聞的輿情聚類分析系統被所述處理器執行時實現如上述的互聯網新聞的輿情聚類分析方法的步驟。
進一步地,為實現上述目的,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有互聯網新聞的輿情聚類分析系統,所述互聯網新聞的輿情聚類分析系統可被至少一個處理器執行,以使所述至少一個處理器執行如上述的互聯網新聞的輿情聚類分析方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711060246.8/2.html,轉載請聲明來源鉆瓜專利網。





