[發明專利]一種協議自動識別方法及其所用分類器的構造方法在審
| 申請號: | 201310134121.0 | 申請日: | 2013-04-17 |
| 公開(公告)號: | CN104111931A | 公開(公告)日: | 2014-10-22 |
| 發明(設計)人: | 楊航;張宇;趙志軍;潘大慶;楊子堯;趙汗青 | 申請(專利權)人: | 中國科學院聲學研究所;無錫中科智能信息處理研發中心有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京法思騰知識產權代理有限公司 11318 | 代理人: | 楊小蓉;王敬波 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 協議 自動識別 方法 及其 所用 分類 構造 | ||
技術領域
本發明涉及物聯網領域,特別涉及一種協議自動識別方法及其所用分類器的構造方法。
背景技術
近年來隨著物聯網技術的不斷進步,整個物聯網產業進入了快速發展階段,各種新型的面向物聯網的傳感設備大量涌現,并出現了很多基于這些終端設備數據的創新應用。所有物聯網應用的基礎都是在傳感網絡所收集的數據,因此數據獲取是物聯網的一個核心內容。
物聯網發展十分迅速,相比之下其規范標準則落后很多。直至目前,仍沒有一個組織提出的標準能夠被大多數的從業人員所認同,并且就現下情況來看,這也不是一個短時間內能夠解決的問題。由此產生的弊端就是數據協議的多樣化和隨意性。傳感數據有著各式各樣的協議格式,并且很多的協議格式是私有協議,使用范圍非常窄,這就給讀取并理解傳感數據制造了很多的麻煩。
現有技術中的解決方法可以概括為靜態綁定模板方法。在該方法中,一個模板能夠解析一種特定協議的數據,將一模板綁定在一個端口上,則能夠解析該端口接收到的這種協議的數據。但是這樣做的問題在于:一個端口可能會接收到不同協議的數據。以網絡端口為例,各種不同的傳感節點都可以通過網絡上傳數據,這樣在網絡端口接收到的數據往往包含了多種協議類型。在這種情況下,靜態綁定的方法不可取。
發明內容
本發明的目的在于克服現有技術中的靜態綁定方法無法滿足網絡數據協議識別的需要,從而提供一種更加智能、并能動態調整的協議自動識別方法。
為了實現上述目的,本發明提供了一種協議自動識別中所用分類器的構造方法,包括:
步驟11)、采集原始數據樣本,從中提取出訓練集;其中,
所述訓練集中的一個元素對應原始數據樣本中的一個數據,每一元素表示為:(x(i),y(i)),其中的y(i)為賦予給第i個數據的類標,表明該數據屬于哪一種協議;x(i)表示特征值,反映了數據的內在特性;
步驟12)、利用步驟11)得到的訓練集構造分類器。
上述技術方案中,在所述的步驟11)中,通過Tf-Idf方法求取所述特征值;包括:
步驟11-1)、根據原始數據樣本中的數據構建詞典;所述詞典表示詞匯的取值范圍,所述詞匯表示組成原始數據的字符串中若干個字符的組合;
步驟11-2)、將原始數據樣本中的各個數據與步驟11-1)所得到的詞典進行比較,根據比較結果得到各個數據的特征值。
上述技術方案中,在所述的步驟11-1)中還包括:計算所述詞匯與詞典的關聯程度,將關聯程度低的詞匯從所述詞典中刪除。
上述技術方案中,在所述的步驟12)中,采用k類樸素貝葉斯方法構造分類器。
本發明還提供了一種基于所述方法所構造的分類器實現協議自動識別的方法,包括:
步驟21)、接收到數據后,提取出該數據的特征值;
步驟22)、將步驟21)所得到的某一數據的特征值代入所述分類器中,得到該數據所屬協議的類別。
上述技術方案中,所述步驟22)包括:
步驟22-1)、將步驟21)所得到的某一數據的特征值代入分類器中,得到該特征值屬于各個協議的概率值;
步驟22-2)、將步驟22-1)所得到的各個概率值與一用于表示顯著性的閾值進行比較,若均小于該閾值,所述數據不屬于任何已知協議,屬于未分類,否則將概率最大值所對應的協議作為所述數據所屬的協議;
步驟22-3)、對分類后的數據做進一步分析,將分析結果與實際情況較大的數據歸為誤分類。
上述技術方案中,在所述的步驟22)之后還包括:
步驟23)、記錄并保存屬于誤分類或未分類的數據,達到一定量后,將這些數據按照權利要求1-4之一所述方法提取訓練集,并與之前的訓練集合并,形成新的訓練集,進而構造另一分類器。
上述技術方案中,在所述的步驟22)之后還包括:
步驟24)、當刪除的協議達到一定數量后,修改之前保存的訓練集,從中刪除所有屬于刪除協議的數據條目,得到新的訓練集,然后按照權利要求1-4之一所述方法得到新的分類器。
與現有技術相比,本發明具有以下優點:
1、不再需要綁定端口和協議,使得數據的處理更加地智能和自動化。
2、能夠動態地調整協議的數量,方便添加新增協議,刪除過時協議,更適應真實的物聯網場景。
附圖說明
圖1是本發明方法中構造分類器過程的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;無錫中科智能信息處理研發中心有限公司,未經中國科學院聲學研究所;無錫中科智能信息處理研發中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310134121.0/2.html,轉載請聲明來源鉆瓜專利網。





