[發明專利]數據處理方法和裝置有效
| 申請號: | 201710665195.5 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN107403199B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 鄭瑞平 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 曲瑞 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
本發明公開了一種數據處理方法和裝置,涉及數據處理領域。本發明通過根據決策樹對訓練數據集中數據的分類結果,將同一數據對各個類的投票數中值最大的投票數確定為最高投票數,再將各個類對應的最高投票數中的最小值確定為該類的判定閾值,能夠確定數據被判定為某個類別時所需要滿足的最小投票數,從而能夠應對各種分類數量的分類問題,提高了分類的準確率。
技術領域
本發明涉及數據處理領域,特別涉及一種數據處理方法和裝置。
背景技術
隨機森林是一個由許多基礎分類器構成的組合分類器,其中的基礎分類器為決策樹。不同決策樹之間是獨立同分布的。當輸入一個測試樣本時,由所有決策樹的投票結果來確定最終樣本的所屬類別。
在實際應用中,為了提升準確率,一種改進方式是加權隨機森林方法。
加權隨機森林方法針對二分類問題。首先設置葉子節點的投票權重均為0.5,然后向每棵決策樹中輸入一個完備的訓練樣本集。當樣本到達某個葉子節點后,將該節點的權重調整為判斷正確的樣本數量與到達葉子節點的樣本總數的比值。通過上述的調整過程,以修正分類器中葉子節點的權重。
發明內容
發明人發現,加權隨機森林方法只能夠解決二分類問題。然而,在實際的應用場景中還存在多分類問題。例如,將圖像分類為美食、自然、建筑、人像,將用戶分類為20歲以下、20~40歲、40歲以上等等。
針對上述問題,發明人提供了一種用于訓練適用于各種分類數量的隨機森林模型的數據處理方法。
根據本發明實施例的第一個方面,提供一種數據處理方法,包括:將訓練數據集輸入到構建的隨機森林模型中的多棵決策樹中,獲得訓練數據集中的每個數據在決策樹上的分類結果;根據分類結果,統計訓練數據集中的每個數據對每個類的投票數,其中,數據對某個類的投票數為數據被判定為該類的次數;對于訓練數據集中的每個數據,將同一數據對各個類的投票數中值最大的投票數確定為最高投票數;根據各個類對應的最高投票數中的最小值確定該類的判定閾值,以便對待測數據進行分類。
在一個實施例中,如果同一數據對各個類的投票數中值最大的投票數有多個,將其中對應類的預設的優先級最高的投票數確定為最高投票數。
在一個實施例中,數據處理方法還包括:如果同一數據對各個類的投票數中值最大的投票數有多個,將其中對應類的預設的優先級不是最高的投票數置為修正投票數,其中,同一類對應的投票數和修正投票數之差大于0。
在一個實施例中,根據各個類對應的最高投票數中的最小值確定該類的判定閾值包括:將各個類對應的最高投票數中的最小值確定為該類的判定閾值;或者,將通過不同訓練數據集獲得的各個類對應的最高投票數中的最小值的均值確定為該類的判定閾值。
在一個實施例中,數據處理方法還包括:根據隨機森林模型中的決策樹的分類結果和判定閾值對數據進行分類。
在一個實施例中,采用隨機森林模型中的決策樹的分類結果和判定閾值對數據進行分類包括:將待測數據輸入到隨機森林模型中的多棵決策樹中,獲得待測數據在每棵決策樹上的分類結果;根據分類結果,統計待測數據對每個類的投票數;在待測數據對每個類的投票數中,將投票數大于或等于判定閾值的類確定為待測數據的分類結果。
在一個實施例中,將投票數大于或等于判定閾值的類確定為待測數據的分類結果包括:將投票數大于或等于判定閾值的類中預設的優先級最高的類確定為待測數據的分類結果;或者,將投票數大于或等于判定閾值的類中投票數最多的類確定為待測數據的分類結果;或者,在投票數大于或等于判定閾值的多個類中,如果預設的優先級最高的類與其他類的投票數之差大于預設值,將預設的優先級最高的類確定為待測數據的分類結果;如果預設的優先級最高的類與其他類的投票數之差不大于預設值,將投票數最多的類確定為待測數據的分類結果。
在一個實施例中,隨機森林模型的分類數量大于或等于三類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710665195.5/2.html,轉載請聲明來源鉆瓜專利網。





