[發明專利]基于機器學習的數據分類方法及系統有效
| 申請號: | 201711235660.8 | 申請日: | 2017-11-30 |
| 公開(公告)號: | CN108021940B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 黃自力;楊陽;陳舟;朱浩然 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F18/24 | 分類號: | G06F18/24;G06F18/27;G06F18/214;G06F18/21 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 王星;楊美靈 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 數據 分類 方法 系統 | ||
1.一種用于識別惡意網頁的數據分類方法,包括:
a)、采用第一批多種機器學習算法,分別對數據集進行采集、并進行學習訓練,以形成與所述第一批多種機器學習算法相對應的第一批多個分類模型;
b)、利用所述第一批多個分類模型中的各分類模型分別對來自所述數據集的第一數據特征進行分類計算,以得到第一分類結果;
c)、設立第N批多個迭代模型,以所述第N批多個迭代模型中的各迭代模型分別獲取所述第一分類結果和所述第一數據特征來形成第二數據特征,并基于所述第二數據特征進行學習訓練;其中,N為大于等于1的正整數;
d)、利用各所述迭代模型分別對所述第二數據特征進行分類計算,以得到第二分類結果;
e)、衡量所述第二分類結果與期望分類結果的接近程度;
f)、若所述接近程度滿足第一條件,則輸出所述第二分類結果,所述方法結束;否則,N自增1,且以所述第二分類結果作為所述第一分類結果,所述方法回到步驟c)迭代執行,
其中,所述第一條件包括:所述第二分類結果是收斂的,
其中,所述第一批多種機器學習算法包括:邏輯回歸算法;支持向量機算法;樸素貝葉斯算法;K近鄰算法;BP神經網絡算法;決策樹算法;DNN算法;RNN算法;以及,CNN算法,
其中,所述第N批多個迭代模型中的各所述迭代模型分別采用第二批多種機器學習算法中的一個,所述第二批多種機器學習算法包括:Adaboost算法;隨機森林算法;梯度提升決策樹算法;以及,eXtreme?GradientBoosting算法。
2.根據權利要求1所述的方法,其特征在于,所述步驟d)進一步包括:
自主地調節各所述迭代模型所采用的參數。
3.根據權利要求1所述的方法,其特征在于,每次迭代執行所述步驟c)時,使得第K+1批多個迭代模型中的所述迭代模型的數量小于或等于第K批多個迭代模型中的所述迭代模型的數量,其中K為大于等于1的正整數。
4.根據權利要求3所述的方法,其特征在于,每次迭代執行所述步驟c)時,使得所述第K+1批多個迭代模型各自對應的機器學習算法在算法優先級上高于或等于所述第K批多個迭代模型各自對應的機器學習算法。
5.根據權利要求3所述的方法,其特征在于,迭代執行所述步驟c)的次數至少為1。
6.根據權利要求1所述的方法,其特征在于,所述步驟c)還包括:
對所述第二數據特征進行特征處理,以使得所述第N批多個迭代模型能夠直接依據所述特征處理的結果來進行分類計算。
7.根據權利要求1所述的方法,其特征在于,在所述步驟e)中,衡量所述接近程度包括:
計算所述第二分類結果的分類準確率、分類召回率、以及F度量。
8.一種用于識別惡意網頁的數據分類系統,該系統包括:
數據分類模塊,包括第一批多個分類模型,所述第一批多個分類模型中的各分類模型分別采用第一批多種機器學習算法中的一個對數據集進行采集、并進行學習訓練,以及,對來自所述數據集的第一數據特征進行分類計算,以得到第一分類結果;
數據迭代模塊,其初始化地設立或基于篩選器的通知而逐次設立第N批多個迭代模型,以所述第N批多個迭代模型中的各迭代模型分別獲取所述第一分類結果和所述第一數據特征來形成第二數據特征,并基于所述第二數據特征進行學習訓練,以及,利用各所述迭代模型分別對所述第二數據特征進行分類計算,以得到第二分類結果;其中,N為大于等于1的正整數;以及
所述篩選器,其衡量所述第二分類結果與期望分類結果的接近程度,以及,在所述接近程度滿足第一條件時輸出所述第二分類結果,否則,N自增1,以所述第二分類結果作為所述第一分類結果,并向所述數據迭代模塊發出所述通知,
其中,所述第一條件包括:所述第二分類結果是收斂的,
其中,所述第一批多種機器學習算法包括:邏輯回歸算法;支持向量機算法;樸素貝葉斯算法;K近鄰算法;BP神經網絡算法;決策樹算法;DNN算法;RNN算法;以及,CNN算法,
其中,所述第N批多個迭代模型中的各所述迭代模型分別采用第二批多種機器學習算法中的一個,所述第二批多種機器學習算法包括:Adaboost算法;隨機森林算法;梯度提升決策樹算法;以及,eXtreme?Gradient?Boosting算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711235660.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:提高電子產品散熱效率的冷卻機構
- 下一篇:一種剪切機自動控制系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





