[發明專利]一種基于隨機森林的模型訓練方法和裝置有效
| 申請號: | 201610201626.8 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN107292186B | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 姜曉燕;王少萌;楊旭 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 森林 模型 訓練 方法 裝置 | ||
1.一種基于隨機森林的模型訓練方法,其特征在于,包括:
將工作節點劃分成多個分組;
由每個分組中的工作節點從預置的樣本數據中進行隨機采樣,獲得目標樣本數據;
由每個分組中的工作節點采用所述目標樣本數據訓練一個或多個決策樹對象;
其中,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;每個分組負責處理一份預置的樣本數據;
所述由每個分組中的工作節點從預置的樣本數據中進行隨機采樣,獲得目標樣本數據的步驟包括:
在每個分組中,由每個第一工作節點從預置的樣本數據中讀取部分樣本數據;
由每個第一工作節點將讀取的部分樣本數據隨機分發至每個第二工作節點中,以分發至第二工作節點的樣本數據作為目標樣本數據;
所述由每個分組中的工作節點采用所述目標樣本數據訓練一個或多個決策樹對象的步驟包括:
在每個分組中,由每個第二工作節點采用所述目標樣本數據訓練一個決策樹對象。
2.根據權利要求1所述的方法,其特征在于,所述由每個分組中的工作節點采用所述目標樣本數據訓練一個或多個決策樹對象的步驟包括:
當所述目標樣本數據的屬性信息的值為枚舉值時,計算所述屬性信息的值的權重;
按照所述權重對所述屬性信息的值進行排序;
采用排序后的屬性信息的值計算基尼系數;
按照所述基尼系數針對決策樹對象的樹節點進行分裂處理。
3.根據權利要求2所述的方法,其特征在于,所述計算所述屬性信息的值的權重的步驟包括:
當所述屬性信息的分類列為二分類時,計算所述屬性信息的值對于所述分類列的頻率;
對所述頻率進行歸一化,獲得權重。
4.根據權利要求2所述的方法,其特征在于,所述計算所述屬性信息的值的權重的步驟包括:
當所述屬性信息的分類列為多分類時,計算所述屬性信息的值針對所述分類列的權重概率矩陣,其中,所述權重概率矩陣的橫坐標為所述屬性信息的值、縱坐標為所述分類列的值;
對所述權重概率矩陣進行主成分分析,獲得最大特征值對應的特征向量;
將所述權重概率矩陣乘以所述特征向量,獲得權重。
5.根據權利要求2所述的方法,其特征在于,所述采用排序后的屬性信息的值計算基尼系數的步驟包括:
按照排序的順序依次將排序后的屬性信息的值劃分為兩個屬性子集;
依次采用所述兩個屬性子集計算基尼系數。
6.一種基于隨機森林的模型訓練裝置,其特征在于,包括:
分組劃分模塊,用于將工作節點劃分成多個分組;
隨機采樣模塊,用于由每個分組中的工作節點從預置的樣本數據中進行隨機采樣,獲得目標樣本數據;
決策樹訓練模塊,用于由每個分組中的工作節點采用所述目標樣本數據訓練一個或多個決策樹對象;
其中,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;每個分組負責處理一份預置的樣本數據;
所述隨機采樣模塊包括:
部分數據讀取子模塊,用于在每個分組中,由每個第一工作節點從預置的樣本數據中讀取部分樣本數據;
數據隨機分發子模塊,用于由每個第一工作節點將讀取的部分樣本數據隨機分發至每個第二工作節點中,以分發至第二工作節點的樣本數據作為目標樣本數據;
所述決策樹訓練模塊包括:
節點訓練子模塊,用于在每個分組中,由每個第二工作節點采用所述目標樣本數據訓練一個決策樹對象。
7.根據權利要求6所述的裝置,其特征在于,所述決策樹訓練模塊包括:
權重計算子模塊,用于在所述目標樣本數據的屬性信息的值為枚舉值時,計算所述屬性信息的值的權重;
排序子模塊,用于按照所述權重對所述屬性信息的值進行排序;
基尼系數計算子模塊,用于采用排序后的屬性信息的值計算基尼系數;
分裂子模塊,用于按照所述基尼系數針對決策樹對象的樹節點進行分裂處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610201626.8/1.html,轉載請聲明來源鉆瓜專利網。





