[發明專利]面向多租戶的SaaS輿情監控系統及方法在審
| 申請號: | 201610054599.6 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105718590A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 郭文忠;林曉紅;陳星;蘭興土;王一洲 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 租戶 saas 輿情 監控 系統 方法 | ||
技術領域
本發明涉及輿論監控領域,特別是一種面向多租戶的SaaS輿情監控系統及方法。
背景技術
2015年,中國的網民滲透率將達50%,隨著網民不斷增多,言論數量也表現出爆炸性增長的趨勢。為了及時發現言論中的不良信息,掌控網絡言論的發展態勢,輿情監控已經成為政府及大型企業的實際需求。但海量的媒體數據和異構的信息內容為輿情監控帶來了極大的挑戰:
1.傳統的輿情系統的設計多采用單機模型,主要面向單個領域進行監控。隨著答數據的涌現和數據結構的多變,現有的輿情監控系統難以同時滿足海量數據的實時獲取和實現多領域的監控,傳統的單機系統面對龐大的多源數據表現出可擴展性等問題。
2.當前的輿情監控系統都是基于某類特定算法實現的,針對一個特定的用戶需求可能需要多種算法進行分析。在面向不同用戶的需求,或者針對新的任務和功能,現有的系統難以進行處理和擴展。
因此,我們提出面向多租戶的SaaS輿情監控系統,針對海量、異構、多源數據進行爬取,在并行計算框架基礎上對數據分析,并通過云計算平臺以低成本提供海量輿情數據的監控服務。
發明內容
有鑒于此,本發明的目的是提出一種面向多租戶的SaaS輿情監控系統及方法,在多數據源、多租戶等方面體現了良好的可擴展性。
本發明的系統采用以下方案實現:一種面向多租戶的SaaS輿情監控系統,包括數據采集與存儲模塊、基于并行處理框架的數據分析模塊;所述數據采集與存儲模塊是在Nutch開源框架的基礎上,對指定的包括新聞、博客、論壇在內的網站進行實時監控,發現并下載最新網頁的全文信息,自動提取網頁中的鏈接,訪問其他網頁進行抓取并存儲至數據庫中,采集的輿情數據采用HBase分布式存儲技術實現海量數據的存儲;所述數據分析模塊在并行計算框架基礎上,采用基于Single-Pass的改進算法發現熱點話題,將挖掘出的熱點話題與用戶預設的業務需求描述進行逐條匹配,用以實現用戶在海量數據上的篩選和過濾。
進一步地,本發明的數據采集與存儲模塊是基于Nutch開源框架實現的。Nutch是一個由Java實現的開源web搜索引擎,主要用于收集網頁數據,對其進行分析、索引,以提供相應的接口來對其網頁數據進行查詢的一套工具。Nutch1.X版本將爬取的網頁存儲在HDFS文件系統中,而2.X版本對底層的數據存儲進行了抽象,支持使用多種數據庫,例如HBase,MySql來存儲數據。考慮到使用上的需求,本方法選取Nutch2.2.1版本,方便讀取存儲的網頁數據。
較佳的,輿情監控系統在信息獲取上要求具有高度的針對性和時效性。為滿足上述兩點,本發明基于Nutch搭建采集模塊,采用分布式部署和并行爬取的策略,由一臺服務控制器和多個爬蟲端組成,服務控制器負責爬蟲端的監測與控制,每個爬蟲端可單獨配置爬取的站點、深度等參數,進行全天候的數據獲取。對于爬取的數據,按照一定的格式存儲于分布式平臺HBase中。HBase是一個分布式的、面向列的開源數據庫,依托于Hadoop的HDFS作為最基本存儲基礎單元。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。
進一步地,Nutch是為搜索引擎設計的爬蟲,主要針對互聯網上的信息進行漫無邊際的爬取,在精準數據抓取方面較為薄弱;另一方面,Nutch數據更新周期的長短,決定了采集的數據是否具有時效性,但周期設置過短,Nutch則會浪費大量時間在已爬取網頁的更新工作上。因此,對Nutch進行了以下改進:
1)限制數據的采集范圍。Nutch提供了一個迭代次數的設置參數,爬蟲程序一旦達到迭代次數即停止,但最后一次迭代解析出的鏈接將會作為下一次爬蟲的起始地址,因此Nutch會對互聯網上的信息進行漫無邊際的爬取。但互聯網上太久遠的網頁不是我們的采集目標,為去除這部分網頁,我們設置一定的爬取深度。爬蟲程序從入口URL開始抓取網頁,一直采集到預設的深度即停止。最后一層深度的網頁只獲取內容,不解析其鏈接,實現數據采集范圍的限制功能。
2)廢除數據更新周期。若一個網頁的所在位置與入口地址的距離已經超出上述的爬取深度,我們認為該網頁已經不在我們的采集范圍內,即該網頁對于本輿情監控系統來說“太久遠”了,沒有必要再進行更新,因此本方法廢除了數據更新周期這個配置參數。針對仍在采集范圍內的網頁,每一次爬蟲程序啟動,都要獲取其HTTPheader中的Last-Modified屬性,判斷是否需要更新,若需要更新則將該網頁的URL加入預取列表,等待重新抓取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610054599.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種業務動態集成模型及其應用方法
- 下一篇:數據倉庫模型的構建方法和構建裝置





