[發明專利]基于機器學習的數據分類方法及系統有效
| 申請號: | 201711235660.8 | 申請日: | 2017-11-30 |
| 公開(公告)號: | CN108021940B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 黃自力;楊陽;陳舟;朱浩然 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F18/24 | 分類號: | G06F18/24;G06F18/27;G06F18/214;G06F18/21 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 王星;楊美靈 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 數據 分類 方法 系統 | ||
本發明涉及一種基于機器學習的數據分類方法,包括:形成與第一批多種機器學習算法相對應的第一批多個分類模型;利用第一批多個分類模型中的各分類模型分別對第一數據特征進行分類計算;設立第N批多個迭代模型,基于第二數據特征進行學習訓練;利用各迭代模型分別對第二數據特征進行分類計算;衡量第二分類結果與期望分類結果的接近程度;若接近程度滿足第一條件,方法結束;否則,迭代執行迭代模型的設立步驟。該方法能夠實現“類深度學習”的效果,這極大提升了數據分類的普適性和準確性。同時,這種數據分類方法可信度高,人工干預程度低。
技術領域
本發明涉及機器學習技術領域,更具體地說,涉及一種基于機器學習的數據分類方法及系統。
背景技術
在大數據安全分析領域,在進行正常/危險標簽識別時,如在惡意網頁的識別分類,常常先要根據安全人員對場景與問題的測評分析,然后選擇具體的機器學習算法來進行訓練與測試,但是識別結果會過多取決于單一機器學習算法的合適程度以及模型調優的時間,而通常無法有一定的普適性,即知識遷移的能力。
機器學習算法在進行事物識別與分類前,必須要進行業務場景的精確分析與研究,即必須由具備相關領域專業知識的技術人員以經驗為向導,選擇、設計或優化其中一至多種機器學習分類算法,來實現與具體領域相關的分類識別。
以下介紹一些現有的基于機器學習的安全檢測和/或識別方法,以及各自特點與缺陷。
1.基于特定機器學習方法
從大數據的角度,根據具體場景,選擇特定的機器學習算法(例如樸素貝葉斯在垃圾郵件識別有很強的適用性)來進行建模,訓練與測試數據、并實現分類。此方法可智能檢測安全威脅,但對于算法的選取與模型的優化有較高的要求,如若沒有選擇到合適的算法,則最終的分類效果可能并不理想。
2.模型參數對分類效果極其敏感
當選定了指定的機器學習算法,對于數據的訓練,需要通過技術人員根據經驗,反復地調節參數,來觀察模型最終的分類效果。在這一過程中,參數的調節對結果的影響是關鍵的,這取決于專業人員的技術水平、以及所花費的時間。
3.某一算法對多分類器的組合效果有顯著影響
采用多機器學習切割融合方法,將一個整體架構,根據需求,拆分成多個部分,每個部分可根據不同的算法進行分析,最終將所有結果匯總組合,例如身份識別,分為人像的匹配識別算法與身份證號或姓名的匹配算法,兩個部分所采用的算法不同且互不干擾,最終將識別結果匯總即可。但是,如果某一部分算法的識別效果較差,會影響匯總結果;此外,若不同部分算法產生相互矛盾的結果,分類器將左右為難,而再次需要人工介入。
4.主輔組合方法與場景關聯過高
采用多機器學習互補方法,以一個算法為主,其他算法為輔,分析問題。例如AlphaGo人工智能,以蒙特卡洛樹搜索為主算法,再配合價值網絡等算法輔助完善其功能。這種方法有主輔之分,與具體場景會關聯緊密;若涉及到不同場景的檢測問題,有可能需要完全改變模型,因此不具備普適性。
5.多種機器學習算法線性組合或簡單投票
“多種機器學習算法線性組合或簡單投票”方法一般會選擇多個機器學習算法各自訓練與分類,將最后的結果進行“線性組合”或“簡單投票”,得到最終的分類結果。即使這種方法的優勢在于對多個算法進行了結合應用,但是“組合器”或“投票器”的應用又容易為分類過程引入相當程度的主觀因素或經驗因素,使得分類過程又偏離了機器學習-機器分類的目標。
因此,技術人員期望獲得一種結合多種機器學習算法、并能克服上述各種缺陷的數據分類方法。
發明內容
本發明的目的之一在于提供一種基于機器學習的數據分類方法,其可信度高、人工干預程度低。
為實現上述目的,本發明提供一種技術方案如下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711235660.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:提高電子產品散熱效率的冷卻機構
- 下一篇:一種剪切機自動控制系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





