[發明專利]一種數據挖掘方法和裝置、一種可讀介質和存儲控制器在審
| 申請號: | 201710273242.1 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN107038244A | 公開(公告)日: | 2017-08-11 |
| 發明(設計)人: | 高洪濤;胡建斌;白志凌 | 申請(專利權)人: | 北京北信源軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50;G06K9/62 |
| 代理公司: | 北京東正專利代理事務所(普通合伙)11312 | 代理人: | 劉瑜冬 |
| 地址: | 100081 北京市海淀區中關村*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 挖掘 方法 裝置 可讀 介質 存儲 控制器 | ||
技術領域
本發明涉及數據分析及挖掘技術領域,特別涉及一種數據挖掘方法和裝置、一種可讀介質和存儲控制器。
背景技術
隨著信息技術的快速發展和互聯網逐漸的被廣泛應用,特別是云計算和大數據時代的來臨,互聯網上的數據正在呈指數級增長,而互聯網同時成為了最重要的信息來源。但是,互聯網的信息具有數據量大、維度高、結構復雜不規則,而且包含大量的噪聲數據,于是面對如此龐大、復雜的信息,如何快速的組織、管理、利用、挖掘出有價值的信息是一些非常重大的挑戰。
數據挖掘又稱數據庫中的知識發現,是指從大量的不完全的、有噪聲的、模糊的數據中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式。
傳統的數據挖掘方法一般只適用于低維的小數據集,對于多維度的海量大數據時,由于運算時間和對計算資源的要求的不斷提高,致使傳統的數據挖掘方法在進行數據挖掘時成本過高并且效率較低。
發明內容
本發明實施例提供了一種數據挖掘方法和裝置、一種可讀介質和存儲控制器,能夠降低數據挖掘的成本以及提高數據挖掘的效率。
第一方面,本發明實施例提供了一種數據挖掘方法,該數據挖掘方法包括:
將原始數據存儲于分布式文件系統HDFS上,并分配到至少一個數據節點上;
將具有M維特征向量的原始數據進行降維處理,形成具有m維特征向量的低維數據,其中M>m;
按照預設比例,在每一個數據節點上將低維數據劃分為訓練數據和測試數據;
在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型;
利用上述的多層感知器分類模型對測試數據進行預測,確定多層感知器分類模型的預測準確性并實現數據挖掘。
優選地,在每一個數據節點上將低維數據劃分為訓練數據和測試數據之后,進一步包括:
在每一個數據節點上訓練數據組成訓練數據集,以及測試數據組成測試數據集;
在在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型之前,進一步包括:
通用并行框架Spark平臺從HDFS中讀取每一個數據節點上的訓練數據集;
Spark平臺將讀取的每一個訓練數據集轉換為彈性分布式數據集RDD對象;
Spark平臺將每一個RDD對象存儲在內存中;
在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型,包括:
Spark平臺將RDD對象分配到數據節點上進行訓練,獲得多層感知器分類模型。
優選地,Spark平臺將RDD對象分配到數據節點上進行訓練,獲得多層感知器分類模型,包括:
通過Pipelining技術將訓練執行流程分解為多個工作階段;
將每一個工作階段分配到數據節點上;
在數據節點上執行每一個工作階段,獲得多層感知器分類模型。
優選地,在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型,包括:
設定訓練參數t,初始化權值ω(0),其中t=0,ω(0)為小的隨機數;
對于訓練數據執行下述訓練:
S1:對訓練數據進行計算,從輸入層經過隱含層到達輸出層獲得各層輸出值
S2:對輸出層計算訓練誤差δ:
S3:從輸出層向輸入層計算隱含層的訓練誤差δ:
S4:計算并保存各個加權值的修正量其中,γ為動量項的學習率;
S5:修正加權值:ωij(t+1)=ωij(t)+Δωij;
S6:判斷當前訓練數據t是否收斂性,若是,則結束訓練,否則,將訓練數據t+1作為當前訓練數據,執行S1。
第二方面,本發明實施例提供了一種數據挖掘裝置,該數據挖掘裝置包括:分配單元、降維單元、劃分單元、訓練單元和挖掘單元,其中,
分配單元,用于將原始數據存儲于分布式文件系統HDFS上,并分配到至少一個數據節點上;
降維單元,用于將具有M維特征向量的原始數據進行降維處理,形成具有m維特征向量的低維數據,其中M>m;
劃分單元,用于按照預設比例,在每一個數據節點上將低維數據劃分為訓練數據和測試數據;
訓練單元,用于在每一個數據節點上對訓練數據進行訓練,獲得多層感知器分類模型;
挖掘單元,用于利用上述的多層感知器分類模型對測試數據進行預測,確定多層感知器分類模型的預測準確性并實現數據挖掘。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北信源軟件股份有限公司,未經北京北信源軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710273242.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





