[發明專利]基于Storm的食品數據并行計算一致性問題的優化方法有效
| 申請號: | 201810498850.7 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108875786B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 江志英;朱群雄;陳愷;李芳;許方舳;高堰瀘;王旭;劉璐 | 申請(專利權)人: | 北京化工大學;食品安全與營養(貴州)信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京太兆天元知識產權代理有限責任公司 11108 | 代理人: | 張洪年 |
| 地址: | 100029 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 storm 食品 數據 并行 計算 一致性 問題 優化 方法 | ||
1.一種基于Storm的食品數據并行計算一致性問題的優化方法,其特征在于,包括:
獲取食品數據;
通過第一層Spout節點將所述數據隨機分發給第一層Bolt節點;
使用正向最大分詞方式對所述數據進行分詞;
根據TF-IDF算法將分詞之后的數據聚類分發給第二層Bolt節點,獲得向量化之后文本的表示形式如下:
D={(t1,w1),(t2,w2),...(tn,wn)} (1)
其中,t1、t2、t3…tn為特征項,w1、w2、w3…wn為對應所述特征項的權重值;
將文本向量化之后的數據聚類分發給第三層Bolt節點,進行single-pass聚類處理,在30ms之內獲取和計算簇增量,當沒有新的簇可供獲取和計算時,隨機等待30ms-50ms的時間;
第四層Bolt節點使用余弦相似度算法進行文本聚類,所述余弦相似度算法的計算公式如下:
其中,A和B為兩個文本向量;
第五層Bolt節點重新計算新的簇的中間值,將文本的頻率值之中所有特征項添加至簇的平均值,若簇中已經存在所述特征項,根據當前中間點與簇的文本個數重新計算中間值,若不存在,根據簇的文本個數計算中間值;
第六層Bolt節點將每個文本的簇ID存儲到對應文本的Id字段之中,最終形成聚類結果。
2.根據權利要求1所述的基于Storm的食品數據并行計算一致性問題的優化方法,其特征在于,所述特征項的權重為v=fT×fID,
fT=m/M (2)
fID=lg(N/n+0.01) (3)
其中,m表示文本之中特征項出現的次數,M表示文本之中的總詞數,N表示文本的總數量,n表示包含特征項的文本數。
3.根據權利要求1所述的基于Storm的食品數據并行計算一致性問題的優化方法,其特征在于,所述優化方法使用的拓撲結構包括控制節點和工作節點,所述控制節點包括Nimbus組件,所述Nimbus組件用于給所述工作節點分配數據處理工作,而且監控所述工作節點的工作狀態,所述工作節點包括Supervisor組件,所述Supervisor組件用于監控所轄服務器的工作狀態,根據工作需要啟動或者關閉對應的工作進程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京化工大學;食品安全與營養(貴州)信息科技有限公司,未經北京化工大學;食品安全與營養(貴州)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810498850.7/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





