[發明專利]面向多租戶的SaaS輿情監控系統及方法在審
| 申請號: | 201610054599.6 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105718590A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 郭文忠;林曉紅;陳星;蘭興土;王一洲 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 租戶 saas 輿情 監控 系統 方法 | ||
1.一種面向多租戶的SaaS輿情監控系統,其特征在于:包括數據采集與存儲模塊、基于并行處理框架的數據分析模塊;所述數據采集與存儲模塊是在Nutch開源框架的基礎上,對指定的包括新聞、博客、論壇在內的網站進行實時監控,發現并下載最新網頁的全文信息,自動提取網頁中的鏈接,訪問其他網頁進行抓取并存儲至數據庫中,采集的輿情數據采用HBase分布式存儲技術實現海量數據的存儲;所述數據分析模塊在并行計算框架基礎上,采用基于Single-Pass的改進算法發現熱點話題,將挖掘出的熱點話題與用戶預設的業務需求描述進行逐條匹配,用以實現用戶在海量數據上的篩選和過濾。
2.根據權利要求1所述的一種面向多租戶的SaaS輿情監控系統,其特征在于:所述Nutch采用Nutch2.2.1版本,并對所述Nutch作了以下改進:
限制數據的采集范圍:設置一定的爬取深度,爬蟲程序從入口URL開始抓取網頁,一直采集到預設的深度即停止;最后一層深度的網頁只獲取內容,不解析其鏈接,用以實現數據采集范圍的限制功能;
廢除數據更新周期:廢除了數據更新周期這個配置參數,針對仍在采集范圍內的網頁,每一次爬蟲程序啟動,都要獲取其HTTPheader中的Last-Modified屬性,判斷是否需要更新,若需要更新則將該網頁的URL加入預取列表,等待重新抓取;
7*24小時采集:采用全天候的監控方法,為Nutch添加了一個時間調度模塊,以達到實時監控的目的。
3.一種基于權利要求1所述的面向多租戶的SaaS輿情監控系統的方法,其特征在于:包括以下步驟;
步驟S1:所述數據采集與存儲模塊采用Nutch開源框架對指定的包括新聞、博客、論壇在內的網站進行實時監控,發現并下載最新網頁的全文信息,自動提取網頁中的鏈接,訪問其他網頁進行抓取并存儲至數據庫中;
步驟S2:將采集的輿情數據采用HBase分布式存儲技術實現海量數據的存儲;
步驟S3:所述數據分析模塊采用開源分詞工具IKAnalyzer對采集的輿情數據進行中文分詞處理,提取出文本的特征詞并計算特征詞的權重,建立文本的向量空間模型,然后通過改進的Single-Pass聚類算法實現熱點話題挖掘,并針對用戶的不同業務需求向用戶推送輿情內容。
4.根據權利要求3所述的一種基于面向多租戶的SaaS輿情監控系統的方法,其特征在于:所述步驟S1中Nutch的工作具體包括以下步驟:
步驟S11:初始化抓取數據庫CrawlDb,注入種子URL;
步驟S12:根據CrawlDb創建抓取列表,并寫入相應的segments,一個segments代表一次抓取;
步驟S13:根據預取列表中的鏈接進行抓取,獲取網頁文件;
步驟S14:把獲取到的網頁文件的頁面信息存入所述數據庫中,解析獲取的頁面,提取頁面內的鏈接,并更新所述CrawlDb;
步驟S15:判斷Nutch的爬取工作是否達到預先設定的深度,若是,則停止爬取工作,并進入步驟S16;若否,則返回步驟S12;
步驟S16:從CrawlDb獲取頁面重要性評分,同時更新segments;
步驟S17:為獲取的頁面建立索引數據庫;
步驟S18:去除重復的內容,將索引進行合并生成最終可提供系統查詢的索引文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610054599.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種業務動態集成模型及其應用方法
- 下一篇:數據倉庫模型的構建方法和構建裝置





