[發明專利]數據流預測方法及裝置有效
| 申請號: | 201210155437.3 | 申請日: | 2012-05-18 |
| 公開(公告)號: | CN102710616A | 公開(公告)日: | 2012-10-03 |
| 發明(設計)人: | 李軍;張鵬;郭莉;劉萍;方濱興 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/26 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據流 預測 方法 裝置 | ||
技術領域
本發明涉及通信領域,尤其涉及一種數據流預測方法及裝置。
背景技術
近年來,隨著越來越多互聯網業務(例如超文本傳送協議HTTP、簡單郵件傳輸協議SMTP、文件傳輸協議FTP、微軟網絡服務MSN、QQ、BT等)的出現,網絡安全面臨的挑戰愈發嚴峻。垃圾郵件、垃圾短信、色情網站、網絡攻擊等現象每天都給人們的生活帶來極大的困擾。因此,數據流的內容過濾作為網絡內容安全的核心問題,成為近年來數據流研究的熱點話題。由于數據流中包含著大量的文本內容,因此數據流過濾(查詢)的重點在于文本的處理。
目前對數據流過濾采取文本匹配的方法,例如如下技術方案:基于AC自動機的串掃描算法來完成大規模網關的內容檢測;融合多種串匹配技術實現具有環境感知能力的匹配框架,在真實的數據集上明顯提升了性能。總的來說,這些方法通過預先輸入一些關鍵串來完成對文本數據流的信息掃描和過濾。盡管大量的實驗和系統均證明了該算法的有效性,但是一種可能的不足就是該方法無法對文本數據流進行深層語義分析,導致數據流內容檢測的誤判率偏高。
隨著數據流挖掘算法的興起,數據流上的分類預測模型被應用在網絡流的實時判別中。對比于經典的串匹配算法,數據流的分類預測模型可以深入語義層進行內容分析,使得判別結果更加準確和合理。早期的流分類預測模型通常離線訓練一個分類模型,然后利用這個模型來實時判別每個流數據項的類別。該方法雖然簡單,但是單一的分類模型在預測精度上往往不夠令人滿意。因此,最新的研究都采用多模型集成預測,它通過集成多個分類器對每個數據流項進行綜合判別。雖然該方法可以提高判別精度,但是其缺點是判別的時間開銷很大,往往難以跟上數據流本身的速度。尤其是當集成模型中基礎分類器為SVM(Support?Vector?Machine,支持向量機)的情況下,其預測速度隨著分類器的增加呈現線性增長,即使在只有兩個SVM分類器的集成模型中,對于每分鐘到達的190W條數據流元組,完成預測的時間大約需要1個半小時左右,這遠遠達不到實際的性能要求。
同時,由于傳統的倒排索引的對象都是文檔集,用于加速對文檔的獲取而構建;而SVM集成模型的索引對象是分類器,操作(添加、刪除、更新)是以分類器為單位進行,因此,傳統的倒排索引不適合數據流環境下的集成模型在線預測。
由上可見,當前對數據流的管理方法是基于串匹配技術的文本掃描策略,盡管該方法處理速度快,但是其存在精度不高的缺點。近年來,隨著互聯網業務規模的持續增長,該缺點引發的問題越來越引起重視。為提升數據流內容管理的精度,一種可能的思路是將數據流管理作為流分類問題,利用準確度較高的集成模型來對數據流進行精準預測,但是現有的方法其預測開銷隨著分類器規模的增加而呈現線性增長,因此,無法直接應用到大規模數據流處理中。
發明內容
本發明所要解決的技術問題是提供一種數據流預測方法及裝置,提高預測速度。
為解決上述技術問題,本發明提出了一種數據流預測方法,包括:
根據樣本數據更新集成模型索引,所述集成模型索引用于存儲關鍵詞與支持向量集合之間的映射關系,所述支持向量集合中的支持向量為所述集成模型中支持向量機SVM分類器的支持向量;
對輸入文本進行分詞,得到該輸入文本的關鍵詞,所述輸入文本為待測數據流;
根據更新后的集成模型索引檢索包含所述關鍵詞的支持向量集合,以及該支持向量集合中的支持向量所在SVM分類器的信息;
用檢索到的支持向量集合中的所有支持向量對所述輸入文本進行預測。
進一步地,上述方法還可具有以下特點,所述集成模型索引包含倒排表和分類器信息表兩部分,所述分類器信息表用于存儲SVM集成模型包含的分類器的信息,所述倒排表用于存儲包含關鍵詞的支持向量集合。
進一步地,上述方法還可具有以下特點,所述根據樣本數據更新集成模型索引包括:
從所述樣本數據中抽取樣本組成訓練樣本集,根據該訓練樣本集訓練出SVM分類器;
按照分類器包含的支持向量提取所述SVM分類器,根據支持向量包含的關鍵詞,將所述SVM分類器包含的支持向量編排到集成模型索引的倒排表中;
將所述SVM分類器的信息置于所述集成模型索引的分類器信息表中。
進一步地,上述方法還可具有以下特點,所述倒排表用哈希表來實現,所述根據樣本數據更新集成模型索引還包括:
在哈希表中槽位的沖突比超過設定值時調整所述哈希表來重構倒排表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210155437.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶有信號傳輸優化的加濕系統
- 下一篇:一種能降低環路非線性的鑒頻鑒相器





