[發明專利]一種訓練樹模型的方法、裝置和用于訓練樹模型的裝置在審
| 申請號: | 202010764640.5 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN112052875A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 王國賽;何旭;范曉昱;陳琨 | 申請(專利權)人: | 華控清交信息科技(北京)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F21/60;G06F17/16 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 模型 方法 裝置 用于 | ||
1.一種訓練樹模型的方法,其特征在于,所述方法用于基于數據集訓練樹模型,所述數據集中包括m條樣本數據和m個樣本標簽,每條樣本數據包括n個特征,所述數據集中的特征和特征值為密文,所述方法包括:
依據所述數據集,基于密文生成候選分組,每個候選分組由一個特征和該特征對應的閾值組成;
依據所述每個候選分組,基于密文將所述數據集劃分為左子集和右子集;
基于所述每個候選分組劃分得到的左子集和右子集,計算所述每個候選分組的劃分系數;
確定目標候選分組中的特征為最優特征,以及確定所述目標候選分組中的閾值為最優切分點,所述目標候選分組為劃分系數滿足預設條件的候選分組,所述最優特征和所述最優切分點為密文;
依據所述最優特征和所述最優切分點,將所述數據集分配到當前節點的兩個子節點;
對所述兩個子節點遞歸執行上述步驟,直至滿足停止條件。
2.根據權利要求1所述的方法,其特征在于,所述依據所述數據集,基于密文生成候選分組,包括:
按照預設排序方式,基于密文對所述數據集中的第j個特征對應的m個特征值進行排序,得到所述第j個特征對應的第一數組,j取值范圍為0~n-1;
對于所述第j個特征,依次從所述第一數組中選擇一個元素作為所述第j個特征對應的閾值,與所述第j個特征組合得到候選分組。
3.根據權利要求2所述的方法,其特征在于,所述依次從所述第一數組中選擇一個元素作為所述第j個特征對應的閾值,包括:
從所述第一數組中非最大值的元素中依次選擇一個元素作為所述第j個特征對應的閾值。
4.根據權利要求2所述的方法,其特征在于,所述得到所述第j個特征對應的第一數組之后,所述方法還包括:
按照與所述第j個特征對應的m個特征值相同的排序方式,確定所述第一數組對應的第二數組,所述第二數組中包括與所述第一數組中各特征值相對應的樣本標簽;
所述依據所述每個候選分組,基于密文將所述數據集劃分為左子集和右子集,包括:
依據所述每個候選分組中的特征和閾值,將所述m條樣本數據劃分為左子集和右子集,以及將所述第二數組劃分至所述左子集和右子集。
5.根據權利要求1所述的方法,其特征在于,所述確定目標候選分組中的特征為最優特征,以及確定所述目標候選分組中的閾值為最優切分點,包括:
基于所述每個候選分組的劃分系數,構建n行m-1列的第一矩陣;
基于所述數據集中的每個特征對應的m個特征值的排序結果,構建n行m-1列的第二矩陣;
將所述第一矩陣轉換為第一向量;
在所述第一向量中確定劃分系數滿足預設條件的元素對應的密文索引;
基于所述密文索引確定最優特征,以及基于所述密文索引以及所述第二矩陣確定最優切分點。
6.根據權利要求5所述的方法,其特征在于,所述基于所述密文索引確定最優特征,包括:
利用所述密文索引對n進行整除運算,得到最優特征在所述n個特征中的目標索引;
根據所述目標索引,在所述n個特征中確定最優特征。
7.根據權利要求5所述的方法,其特征在于,所述基于所述密文索引以及所述第二矩陣確定最優切分點,包括:
構建第一序列,所述第一序列為從0開始到(m-1)×n的整數序列;
對所述密文索引與所述第一序列中的各元素分別進行比較,得到由密文的比較結果構成的索引向量;
將所述第二矩陣的第0行至第m-2行轉換為第二向量;
對所述第二向量與所述索引向量執行內積操作,得到最優切分點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華控清交信息科技(北京)有限公司,未經華控清交信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010764640.5/1.html,轉載請聲明來源鉆瓜專利網。





