[發明專利]面向多租戶的SaaS輿情監控系統及方法在審

申請號：	201610054599.6	申請日：	2016-01-27
公開（公告）號：	CN105718590A	公開（公告）日：	2016-06-29
發明（設計）人：	郭文忠;林曉紅;陳星;蘭興土;王一洲	申請（專利權）人：	福州大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	福州元創專利商標代理有限公司 35100	代理人：	蔡學俊
地址：	350108 福建省福州市***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	面向租戶 saas 輿情監控系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種面向多租戶的SaaS輿情監控系統，其特征在于：包括數據采集與存儲模塊、基于并行處理框架的數據分析模塊；所述數據采集與存儲模塊是在Nutch開源框架的基礎上，對指定的包括新聞、博客、論壇在內的網站進行實時監控，發現并下載最新網頁的全文信息，自動提取網頁中的鏈接，訪問其他網頁進行抓取并存儲至數據庫中，采集的輿情數據采用HBase分布式存儲技術實現海量數據的存儲；所述數據分析模塊在并行計算框架基礎上，采用基于Single-Pass的改進算法發現熱點話題，將挖掘出的熱點話題與用戶預設的業務需求描述進行逐條匹配，用以實現用戶在海量數據上的篩選和過濾。

2.根據權利要求1所述的一種面向多租戶的SaaS輿情監控系統，其特征在于：所述Nutch采用Nutch2.2.1版本，并對所述Nutch作了以下改進：

限制數據的采集范圍:設置一定的爬取深度,爬蟲程序從入口URL開始抓取網頁，一直采集到預設的深度即停止；最后一層深度的網頁只獲取內容，不解析其鏈接，用以實現數據采集范圍的限制功能；

廢除數據更新周期：廢除了數據更新周期這個配置參數，針對仍在采集范圍內的網頁，每一次爬蟲程序啟動，都要獲取其HTTPheader中的Last-Modified屬性，判斷是否需要更新，若需要更新則將該網頁的URL加入預取列表，等待重新抓取；

7*24小時采集：采用全天候的監控方法，為Nutch添加了一個時間調度模塊，以達到實時監控的目的。

3.一種基于權利要求1所述的面向多租戶的SaaS輿情監控系統的方法，其特征在于：包括以下步驟；

步驟S1：所述數據采集與存儲模塊采用Nutch開源框架對指定的包括新聞、博客、論壇在內的網站進行實時監控，發現并下載最新網頁的全文信息，自動提取網頁中的鏈接，訪問其他網頁進行抓取并存儲至數據庫中；

步驟S2:將采集的輿情數據采用HBase分布式存儲技術實現海量數據的存儲；

步驟S3：所述數據分析模塊采用開源分詞工具IKAnalyzer對采集的輿情數據進行中文分詞處理，提取出文本的特征詞并計算特征詞的權重，建立文本的向量空間模型，然后通過改進的Single-Pass聚類算法實現熱點話題挖掘，并針對用戶的不同業務需求向用戶推送輿情內容。

4.根據權利要求3所述的一種基于面向多租戶的SaaS輿情監控系統的方法，其特征在于：所述步驟S1中Nutch的工作具體包括以下步驟：

步驟S11：初始化抓取數據庫CrawlDb，注入種子URL；

步驟S12：根據CrawlDb創建抓取列表，并寫入相應的segments，一個segments代表一次抓取；

步驟S13：根據預取列表中的鏈接進行抓取，獲取網頁文件；