[發明專利]一種基于深度學習的數據動態過濾系統及其方法有效
| 申請號: | 201710853173.1 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107633058B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 張成;戴長江 | 申請(專利權)人: | 武漢虹旭信息技術有限責任公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/903 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 黃瑞棠 |
| 地址: | 430205 湖北省武漢市江*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 數據 動態 過濾 系統 及其 方法 | ||
1.一種基于深度學習的數據動態過濾系統,其特征在于:
包括數據源收集模塊、深度學習模塊、深度識別模塊、數據接入過濾模塊和數據處理存儲模塊;
其交互關系是:
數據源收集模塊、深度學習模塊和深度識別模塊依次循環交互,數據源收集模塊收集數據給深度學習模塊進行學習,深度學習模塊提供計算圖和參數給深度識別模塊進行識別,深度識別模塊將識別出來的復雜數據給數據源收集模塊進行收集;復雜數據是具備基本特征的數據源;基本特征包括數據的ip、五元組、URL或HOST;
數據接入過濾模塊、數據處理存儲模塊和深度識別模塊依次循環交互,數據接入過濾模塊根據基本特征過濾網絡數據給數據處理存儲模塊,數據處理存儲模塊將復雜數據提供給深度識別模塊進行識別,深度識別模塊識別后將復雜數據的基本特征提供給數據接入過濾模塊;
所述的數據源收集模塊的工作流程如下:
a、開始;
啟動數據源收集模塊,要具備基本的數據預處理功能,對圖像和頻譜圖進行裁剪、縮放和旋轉功能,還需具備數據集分類功能,另外對噪音數據要進行處理;
b、使用網絡獲取數據或下載經典數據集;
c、人工收集特殊數據集;
對于特定應用場景,需采用人工方法進行數據源的采集;
d、收取深度識別模塊發來的復雜數據;
深度識別模塊發來的復雜數據是具備基本特征的數據源,應該收集;
e、讀取POSIX、HDFS和/或GCS文件系統中的數據;
有一部分數據存儲在POSIX、HDFS和/或GCS文件系統中,其中HDFS和GCS文件系統存儲大數據,需要收集這些文件系統中的數據;
f、預處理并整理成訓練、驗證和測試三類數據集;
數據集需要整理成訓練、驗證和測試三類,以便深度學習模塊使用;
所述的深度學習模塊的工作流程如下:
A、開始;
tensorflow開始初始化,遷移學習情況下先加載深度學習的模型;
B、定義前向傳播算法;
前向傳播算法,在深度學習中需要激活輸入數據,激活采用Relu算法,對于復雜數據采用卷積神經網絡或循環神經網絡算法進行深層次的特征提取,加入隱藏層、卷積層和池化層進行計算;
C、定義反向傳播算法;
采用反向傳播算法對深度學習的模型進行優化,通過交叉熵的損失函數或均方差的損失函數的計算,對模型進行收斂,優化損失函數則根據參數的調優情況進行選擇;
D、定義多線程、隊列與GPU設備;
使用多線程、隊列和GPU設備提高模型訓練的速度,其中,多線程采用coordinator和start_queue_runners函數,隊列采用string_input_producer函數,GPU安裝CUDA以便使用;
E、開始訓練并驗證;
使用數據源收集模塊提供的數據進行訓練,從輸入層到輸出層進行優化,對部分數據生成batch進行驗證,通過梯度下降得到一個優化的結果;
F、保存訓練結果;
訓練結果保存后,發給深度識別模塊對復雜數據進行識別;
所述的深度識別模塊的工作流程如下:
Ⅰ、開始;
模塊開始初始化,不同的識別需求對應不同的進程,并提供不同的計算圖和參數;
Ⅱ、加載并初始化模型;
加載計算圖與參數,讀取protobuf格式的數據,在andriod系統上數據大小不超過64M,硬盤上大小不超過512M,為計算圖與參數創建會話;
Ⅲ、讀取復雜數據并進行預處理;
將音頻與信號轉換成相應的頻譜圖流,然后對圖像進行預處理,預處理的圖像信息包括大小、亮度、對比度、色相、飽和度,行成一個張量;
Ⅳ、在深度學習的模型上運行復雜數據;
在深度學習的模型上運行復雜數據,行成一個輸出,這個輸出也是一個張量,在分類問題中,輸出的張量包含每個類別的概率大小;
Ⅴ、給出TOP5的結果;
對于分類問題,給出概率最大的前五名的類別名稱,并呈現出來供分析記錄;
Ⅵ、對識別的復雜數據及基本特征進行處理;
為數據源收集模塊提供復雜數據,為數據接入過濾模塊提供復雜數據的基本特征;
所述的數據接入過濾模塊的工作流程如下:
ⅰ、開始;
模塊開始初始化;采用Cavium公司的HFA硬件初始化,分配相應的內存并加載基本特征,為每個數據包創建TCP或UDP數據流;
ⅱ、從網絡數據包中提取基本特征;
從網絡數據包中提取基本特征;
ⅲ、從深度識別模塊獲取基本特征并與數據包匹配;
深度識別模塊會把復雜數據的基本特征發給數據接入過濾模塊,此時由HFA協處理器進行五元組匹配或字符串的模糊匹配;
ⅳ、按流過濾并向后發送數據;
匹配基本特征的數據包,按照其關聯的流數據進行過濾并發給數據處理存儲模塊;
所述的數據處理存儲模塊的工作流程如下:
α、開始;
模塊開始初始化,深度報文檢測啟動,數據庫啟動;
β、對網絡數據進行處理;
將網絡數據包的基本特征與復雜數據關聯起來,具體為將數據的ip,五元組,URL 或HOST與復雜數據對應起來;
γ、將相關基本特征與復雜數據信息存儲起來;
將相關基本特征與復雜數據信息存儲起來,使用HDFS文件系統進行存儲,由深度識別模塊讀取文件進行識別。
2.基于權利要求1所述系統的數據動態過濾方法,其特征在于包括下列步驟:
①首先啟動數據源收集模塊,方式為人工收集、下載、或讀取POSIX、HDFS、GCS三種文件系統中的數據,并收集在深度識別模塊中經過識別的數據,這些數據用來給深度學習模塊進行學習;
②數據收集后,發給深度學習模塊進行卷積神經網絡或循環神經網絡計算,將訓練的計算圖和參數結果進行保存,并發送給深度識別模塊用來對復雜數據進行匹配;
③啟動數據接入過濾模塊,對接入的網絡數據根據基本特征進行過濾,將過濾匹配的網絡數據發給數據處理存儲模塊;
④數據處理存儲模塊進行數據分析并存儲待識別的復雜數據;
⑤深度識別模塊讀取復雜數據進行識別:將識別出的復雜數據發給數據源收集模塊用來訓練,此處又經第①步驟循環進行;將識別出的復雜數據的基本特征進行提取并發給數據接入過濾系統進行過濾,以進行針對性的全面分析,此處又經第③步驟循環進行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢虹旭信息技術有限責任公司,未經武漢虹旭信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710853173.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖片顯示方法及裝置
- 下一篇:一種用于分布式文件系統的數據處理方法和系統





