[發明專利]一種基于storm流計算框架的食品安全網絡輿情分析方法在審
| 申請號: | 201710957248.0 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107832344A | 公開(公告)日: | 2018-03-23 |
| 發明(設計)人: | 吳羽;黃文愷;林熾杰 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 裘暉,林梅繁 |
| 地址: | 510006 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 storm 計算 框架 食品安全 網絡 輿情 分析 方法 | ||
技術領域
本發明涉及食品安全大數據處理技術領域,尤其涉及一種基于storm流計算框架的食品安全網絡輿情分析方法。
背景技術
隨著經濟的發展,人們的生活質量不斷提高,對食品的要求也從“裹腹”向“健康、營養”過渡。我國目前建立了較為完備的食品質量安全標準,但對于食品安全的網絡監控和基于互聯網的食品安全分析并不多。食品安全分析是食品安全管理的重要組成部分,其功能主要在于對食品安全風險的預防預測。影響食品安全的因素復雜多變,對于食品安全監管的難度系數也越來越大,建立有效的食品安全網絡輿情分析機制,及時發現安全隱患是一項迫切任務。
現有的數據處理框架有storm、MapReduce、SparkStreaming等。
MapReduce:MapReduce是一種面向大數據并行處理的計算框架。主要分為map階段和reduce階段這兩個階段,每個階段都是用鍵值對作為輸入和輸出。map階段是從文件流讀取信息,按關鍵字形成key/value鍵值對。reduce階段是對map階段的結果進行匯總,將具有相同key值的分為一類進行統一處理。MapReduce是一種分布式框架,可以降低服務器的壓力,提高運算效率,但是MapReduce是一種離線數據處理框架,無法滿足實時性要求高的業務。
SparkStreaming:SparkStreaming是一個類似于MapReduce的分布式計算框架,其核心在于其彈性分布式數據集。它與MapReduce相比的優勢就在于它是一種實時計算框架,能同時運行大量的結點,進行海量數據的處理。主要原理是將實時輸入的數據流以時間片Δt為單位切分成塊,然后把每塊數據作為一個RDD(彈性分布式數據集),并使用RDD提供的接口實現數據的批量處理,最終將處理的結果生成一個Spark Job等待匯總。SparkStreaming具有吞吐量大、實時性高的優點,但事務機制并不完善,數據容易丟失出錯。
綜上所述,本發明結合Scrapy與storm框架并通過優化storm框架中的Single‐pass算法提供一種食品安全網絡輿情分析系統。
發明內容
為了解決現有技術所存在的問題,本發明提供一種基于storm流計算框架的食品安全網絡輿情分析方法,通過Scrapy爬蟲框架爬取有關食品安全的網頁,然后對提取出來的網頁文件的文本內容進行分詞以及向量化,對向量化后的文本數據進行分布式聚類,對同一類聚類結果做進一步處理,獲取該類的傾向度結果,再根據傾向度結果判斷輿情變化的趨勢,從而進行監控和預警。
本發明采用如下技術方案來實現:一種基于storm流計算框架的食品安全網絡輿情分析方法,包括以下步驟:
S1、利用Scrapy爬蟲框架對網絡媒體資源進行網絡爬蟲,獲取有關食品安全網頁的url,根據url將相應的網頁數據下載并進行分析,最后將數據保存到Hbase數據庫中;
S2、Spout節點從Hbase數據庫讀取數據放入網絡拓撲結構topology,并且隨機分發給第一層Bolt節點進行計算和處理;
S3、第一層Bolt節點獲取數據后對文本數據進行向量化,將文本數據進行分詞和計算該詞匯的權重;
S4、對第一層Bolt節點向量化后的文本數據進行文本聚類,并將同一類的文本數據發送到相同的Bolt節點中;
S5、對同一類的文本數據作進一步處理,生成事件,提取事件中的輿情信息,根據輿情信息計算出文本分類的輿情傾向度。
所述步驟S3通過漢語分詞系統對文本的標題以及摘要進行分詞;根據食品分類的規則,在數據庫中建立食品類別表,將標題以及摘要分詞后的結果與數據庫中食品類別表進行對比確定標題或摘要中出現的食品,統計確定為食品的詞匯出現的頻率,出現頻率最高的食品詞匯的父類作為事件的分類;繼續通過漢語分詞系統對整篇文章進行分詞,確定該文章出現的時間、地點、評價、轉發量及評論數;最后對文本進行向量化。
所述步驟S5在第二層Bolt節點中對同一類的文本數據進行進一步處理,生成事件。第二層Bolt節點首先提取由第一層Bolt節點獲得的事件發生的時間、地點、類別以及輿情;根據輿情計算得出輿情傾向度,創建正向傾向詞庫、中立傾向詞庫、反向傾向詞庫共三個傾向數據庫,并向三個傾向數據庫導入相應的詞匯;利用漢語分詞系統對文本數據中評價的內容進行分詞,將分詞后的結果與三個傾向數據庫進行對比,獲取評價內容中正向傾向、中立傾向、反向傾向的個數,計算出個體對象輿情傾向度;然后基于同一類不同對象的傾向度計算某個文本分類的整體輿情傾向度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710957248.0/2.html,轉載請聲明來源鉆瓜專利網。





