[發明專利]一種通訊高效無需投影的分布式數據在線分類方法有效
| 申請號: | 202010635904.7 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111754313B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 張利軍;宛袁玉 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F18/24 | 分類號: | G06F18/24;G06Q30/0601;G06F16/906;G06F16/903;H04L41/12 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通訊 高效 無需 投影 分布式 數據 在線 分類 方法 | ||
1.一種通訊高效無需投影的分布式數據在線分類方法,其特征在于,協調多個工作節點對分布式數據進行在線分類,將多個工作節點按照預設的拓撲結構連接,組成一個分布式網絡;在每個數據分類預測回合中,每個工作節點先判斷當前回合是否需要進行模型更新,如果需要,則與鄰居節點交換歷史信息并利用無投影的方式更新模型;最后,利用最新的模型對本地數據進行分類預測,并記錄本地梯度信息用于下次模型更新;
將多個工作節點按照預設的拓撲結構連接,組成一個分布式網絡,通過分布式網絡構建方法實現;所述分布式網絡構建方法的具體步驟如下:
步驟100,設置工作節點個數n;
步驟101,按照預設的拓撲結構連接工作節點;
步驟102,初始化任意兩個工作節點i,j之間的通迅權重Pij=0;
步驟103,計算任意兩個鄰居節點i,j之間的通迅權重其中di和dj分別表示節點i和j的鄰居個數;
步驟104,計算任意節點i的自權重其中Ni表示節點i及其鄰居節點組成的集合;
通過主方法和子方法實現模型更新,對本地數據進行分類預測,以及記錄本地梯度信息用于下次模型更新;
所述主方法的具體步驟如下:
步驟200,設置延遲參數K;
步驟201,設置每次預測模型更新的迭代次數L;
步驟202,設置學習率η;
步驟203,初始化每個工作節點i的計數器mi=1,i=1,2,…,n;
步驟204,初始化每個工作節點i的預測模型為一個h×k的全零矩陣,其中h表示每條數據的候選類別數目,k表示每條數據的特征數目,i=1,2,…,n;
步驟205,初始化每個工作節點i的加權梯度矩陣為一個h×k的全零矩陣,
i=1,2,…,n;
步驟206,初始化每個工作節點i的本地梯度矩陣為一個h×k的全零矩陣,i=1,2,…,n;
步驟207,在每個分類預測回合t,每個工作節點i執行步驟208到步驟221;其中T表示回合總數t=1,2,…,T,i=1,2,…,n;
步驟208,判斷當前回合t是否滿足t1且mod(t,K)=1,如果否,則轉入步驟217,直接進行預測;如果是,則轉入步驟209,先進行模型更新;
步驟209,將加權梯度矩陣傳遞給工作節點i的所有的鄰居節點j≠i,j∈Ni,其中Ni表示節點i及其鄰居節點組成的集合;
步驟210,更新加權矩陣
步驟211,構造替代損失函數
步驟212,將替代損失函數當前預測模型以及迭代次數L傳遞給子方法;
步驟213,運行子方法并獲取其輸出Xout;
步驟214,更新預測模型
步驟215,更新計數器mi=mi+1;
步驟216,重置本地梯度矩陣為一個h×k的全零矩陣;
步驟217,獲取本地數據的特征向量
步驟218,利用最新預測模型和特征向量預測本地數據類別為其中[h]={1,2,…,h}是一個正整數集合,表示的第l行;
步驟219,獲取本地數據的真實類別
步驟220,計算當前回合本地損失函數ft,i(X)在處的梯度其中表示X的第l行;
步驟221,更新本地梯度矩陣
所述子方法的具體步驟如下:
步驟300,接收替代損失函數當前預測模型以及迭代次數L;
步驟301,初始化
步驟302,初始化迭代計數器τ=1;
步驟303,計算替代損失函數在Yτ處的梯度
步驟304,計算更新方向其中為預測模型的可行域;
步驟305,計算更新步長
步驟306,更新模型Yτ+1=Yτ+sτ(Vτ-Yτ);
步驟307,判斷τ是否滿足τ=L,如果是,則輸出Xout=Yτ+1;如果否,則更新計數器τ=τ+1,并轉回步驟303;
所述預設的拓撲結構是一個無向圖,可供選擇的無向圖包括完全圖、循環圖和網格圖;
所述步驟200中延遲參數K的設置方式為其中T是回合總數;
所述步驟201中迭代次數L的設置方式為其中T是回合總數;
所述步驟202中學習率η的設置方式為其中T是回合總數,R是預測模型可行域的半徑,D是使得下式成立的任意值:
所述步驟217中本地數據是某一個工作節點i=1,2,…,n最新收集到的一條數據;
所述步驟304中可行域的具體定義為其中h表示每條數據的候選類別數目,k表示每條數據的特征數目,c0為控制模型復雜度的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010635904.7/1.html,轉載請聲明來源鉆瓜專利網。





