[發明專利]一種用于機器學習分析的大數據信息處理方法及系統在審
| 申請號: | 202010220896.X | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111581439A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 孟慶海 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G06F16/90 | 分類號: | G06F16/90;G06F16/906;G06N20/00 |
| 代理公司: | 深圳市行一知識產權代理事務所(特殊普通合伙) 44453 | 代理人: | 楊賢 |
| 地址: | 100043 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 機器 學習 分析 數據 信息處理 方法 系統 | ||
本發明公開了一種用于機器學習分析的大數據信息處理方法及系統,該方法包括:獲取原始用戶數據,將所述原始用戶數據與規則樹進行匹配,生成用戶元數據集合;將所述用戶元數據集合與分布特征一致性模板進行匹配,生成映射特征組;利用機器學習算法對所述映射特征組進行分析,生成數據分布規律結果;根據所述數據分布規律結果,實現大數據相關應用。該方法能夠保護用于機器學習分析的用戶數據,提高用戶數據的安全性。
技術領域
本發明涉及大數據技術領域,具體是一種用于機器學習分析的大數據信息處理方法及系統。
背景技術
基于大數據的信息分析技術近年來日益普及到我們生活的各個方面,通過大數據分析能夠發現數據之間潛在的關聯規律,提高信息分析的準確率和效率,增強預測精度。特別是通過對用戶數據(例如用戶消費數據、銀行交易數據、移動軌跡和位置數據等)的大數據分析,能夠發現用戶的特點和偏好,提供針對性和個性化的服務。
特別是隨著各種機器學習(例如聚類算法、神經網絡、貝葉斯、回歸分析等)的發展應用,利用機器學習實現大數據信息的分析和挖掘,其分析的數據量級和效率得到了本質上的飛躍,而且能夠從大數據中挖掘深度的、潛在的的規律。
機器學習的原理,和人類的學習方式有很大的區別,機器學習并不需要理解大數據中包含信息的真實含義,而是對數據進行多個維度的分布特征的提取,再進行特征的統計歸類等,最終獲得大數據蘊含的規律性。
但是,用戶數據中存在大量的敏感信息,一旦泄露會嚴重損害用戶的安全和利益,降低公眾對數據運營方的信賴感。而進行大數據信息分析,往往要通過網絡設備傳輸、存儲海量的用戶數據,數據安全方面的風險比較高。目前,應對這方面風險的主要手段是進行用戶數據的加密,或者施加各種模糊化、匿名化的處理,但是都不能很好的解決該問題,例如加密的用戶數據也有可能被破解,或者是模糊化的用戶數據有可能造成大數據分析過程中規律提取的障礙。
因此,如何保護用于機器學習分析的用戶數據,提高用戶數據的安全性是本領域技術人員亟待解決的問題。
發明內容
鑒于上述問題,本發明的目的是為了解決進行大數據信息分析需要通過網絡設備傳輸、存儲海量的用戶數據,數據安全方面的風險比較高的問題。
本發明實施例提供一種用于機器學習分析的大數據信息處理方法,包括:
獲取原始用戶數據,將所述原始用戶數據與規則樹進行匹配,生成用戶元數據集合;
將所述用戶元數據集合與分布特征一致性模板進行匹配,生成映射特征組;
利用機器學習算法對所述映射特征組進行分析,生成數據分布規律結果;
根據所述數據分布規律結果,實現大數據相關應用。
在一個實施例中,所述獲取原始用戶數據,將所述原始用戶數據與規則樹進行匹配,生成用戶元數據集合,包括:
基于專家知識,構建規則樹;
將所述原始用戶數據中的文本內容與所述規則樹的字段名、描述關鍵詞進行檢索對比,提取所述原始數據中的用戶元數據;
利用所述規則樹的邏輯關系組織所述用戶源數據,生成用戶源數據集合。
在一個實施例中,所述將所述用戶元數據與分布特征一致性模板進行匹配,生成映射特征組,包括:
獲取所述分布特征一致性模板中每個分布特征單元的價值估值;
將所述用戶元數據集合與所述分布特征一致性模板進行匹配,生成所述用戶元數據集合與所述分布特征一致性模板中每個分布特征單元的匹配度;
根據所述價值估值與所述匹配度,確定所述用戶元數據集合的映射特征值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010220896.X/2.html,轉載請聲明來源鉆瓜專利網。





