[發明專利]一種基于交替乘子法的分布式大數據分類系統及方法在審
| 申請號: | 201410498542.6 | 申請日: | 2014-09-25 |
| 公開(公告)號: | CN104217022A | 公開(公告)日: | 2014-12-17 |
| 發明(設計)人: | 廖士中;李子達 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/44 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 交替 乘子法 分布式 數據 分類 系統 方法 | ||
1.一種基于交替乘子法的分布式大數據分類系統,其特征在于,該系統包括采樣模塊、隨機特征映射模塊和分布式線性支持向量機模塊,其中:
采樣模塊,對數據進行均勻無放回采樣,即:將n個數據進行標號并且按照標號從小到大排列到一標號數組中,對該標號數組做一個隨機的置換,將置換后的數組前l個作為所采取的樣本;
隨機特征映射模塊,實現訓練數據和預測數據的隨機特征映射,即:輸入所需的近似高斯核參數σ和需要進行特征映射的訓練數據和預測數據;從w的分布中采樣出D個不同的{w1...wD},將{w1...wD}存入文本文件中;對訓練數據和預測數據用上述采樣出的{w1...wD}按照公式(1)進行隨機特征映射;
其中,w為所求向量,wT表示w的轉置,x為原始樣本,將隨機特征映射后的結果存于文本文件中;
分布式線性支持向量機模塊,通過將數據分成若干部分,每個部分作為一個子問題進行訓練,在每個子問題上加上一致性約束,通過子問題和中心節點的通信,使得子問題解保持一致。
2.如權利要求1所述的一種基于交替乘子法的分布式大數據分類系統,其特征在于,所述分布式線性支持向量機模塊具體包括以下處理:
步驟(1)、輸入所需的訓練數據集,所需分塊數;
步驟(2)、對于輸入的訓練數據集,將數據集分割成m個數據塊;
步驟(3)、為每一塊數據分配一個進程,該m個進程分布在m臺計算機上執行;
步驟(4)、輸入一個初始的模型wj和對偶變量λj的值。根據該輸入,每個進程對所分得的數據塊使用任一支持向量機的訓練方法進行訓練;
步驟(5)、使用MPI提供的通信函數,各個計算機將訓練得到的結果發送給中心計算機,中心計算機根據各個計算機訓練得到的模型wj的平均值計算出輔助變量z的值,并將該值發送給各個計算機更新對偶變量λj的值;
步驟(6)、若算法達到收斂準則,則推出。否則,各個計算機利用步驟5)中的到的z和λj作為下一步迭代的輸入轉上述步驟(4)。
3.一種基于交替乘子法的分布式大數據分類方法,其特征在于,該方法包括以下步驟:
步驟一、對數據進行均勻無放回采樣,即:將n個數據進行標號并且按照標號從小到大排列到一標號數組中,對該標號數組做一個隨機的置換,將置換后的數組前l個作為所采取的樣本;
步驟二、實現訓練數據和預測數據的隨機特征映射,即:輸入所需的近似高斯核參數σ和需要進行特征映射的訓練數據和預測數據;從w的分布中采樣出D個不同的{w1...wD},將{w1...wD}存入文本文件中;對訓練數據和預測數據用上述采樣出的{w1...wD}按照公式(1)進行隨機特征映射;
其中,w為所求向量,wT表示w的轉置,x為原始樣本,將隨機特征映射后的結果存于文本文件中;
步驟三、通過將數據分成若干部分,每個部分作為一個子問題進行訓練,在每個子問題上加上一致性約束,通過子問題和中心節點的通信,使得子問題解保持一致。
4.如權利要求1所述的一種基于交替乘子法的分布式大數據分類方法,其特征于,所述步驟三還具體包括以下處理:
步驟(1)、輸入所需的訓練數據集,所需分塊數;
步驟(2)、對于輸入的訓練數據集,將數據集分割成m個數據塊;
步驟(3)、為每一塊數據分配一個進程,該m個進程分布在m臺計算機上執行;
步驟(4)、輸入一個初始的模型wj和對偶變量λj的值。根據該輸入,每個進程對所分得的數據塊使用任一支持向量機的訓練方法進行訓練;
步驟(5)、使用MPI提供的通信函數,各個計算機將訓練得到的結果發送給中心計算機,中心計算機根據各個計算機訓練得到的模型wj的平均值計算出輔助變量z的值,并將該值發送給各個計算機更新對偶變量λj的值;
步驟(6)、若算法達到收斂準則,則推出。否則,各個計算機利用步驟5)中的到的z和λj作為下一步迭代的輸入轉上述步驟(4)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410498542.6/1.html,轉載請聲明來源鉆瓜專利網。





