[發明專利]數據處理方法和裝置在審
| 申請號: | 201710523102.5 | 申請日: | 2017-06-30 |
| 公開(公告)號: | CN107330464A | 公開(公告)日: | 2017-11-07 |
| 發明(設計)人: | 沈雄 | 申請(專利權)人: | 眾安信息技術服務有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/30 |
| 代理公司: | 北京永新同創知識產權代理有限公司11376 | 代理人: | 鐘勝光 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
技術領域
本發明屬于計算機數據處理領域,尤其涉及一種自適應更新的數據處 理方法和裝置。
背景技術
隨著互聯網技術的發展,出現了大量的網絡應用,例如:網絡社交、 網絡閱讀、股票基金交易等等。網絡應用提供方為了向用戶推薦具有針對 性的信息,通常會周期性地對當前的數據進行處理,然后,向用戶推送預 測性的信息。為了提高預測效率和準確性,在大多數網絡應用中通常采用 分類模型進行分類預測。
隨機森林分類模型是應用比較普遍的分類模型之一,該分類模型由多 棵決策樹組成,當待分類樣本進入隨機森林時,由該多棵決策樹進行分類, 最后選取被所有決策樹選擇次數最多的類別作為最終的分類結果。在傳統 應用中,通常采用離線的機器學習過程構造該分類模型:通過對全量的用 戶行為數據的學習、分析與訓練,得出關于分類的知識,從而完成對分類 模型的構建并部署上線。隨著時間的推移,在線上部署的分類模型通常會 逐漸退化,其分類的準確率可能無法滿足要求。
在傳統的機器學習領域,都是基于離線學習,隨著數據量的增大,處 理能力越來越下降,特別在金融交易領域,信息瞬息萬變,會導致交易系 統會有一定的滯后性。
因此,亟需一種能夠自動進行更新的預測模型對數據進行處理。
發明內容
本發明針對上述問題,提出一種通過對預測模型中的決策樹進行更新 而實現自適應修改的數據處理方法以及裝置。
本發明的第一方面提出了一種數據處理方法,其特征在于,包括:獲 取預定時間段內的增量數據,并基于是否存在分類模型來確定生成決策樹 的數量;若存在分類模型,則根據所述增量數據生成增量決策樹,并基于 所述增量決策樹和所述分類模型中的模型決策樹和所述增量決策樹來對所 述增量數據進行標簽預測,其中,所述增量決策樹的數量基于所述原始決 策樹的數量來確定;確定所述分類模型中的模型決策樹和所述增量決策樹 中的各個決策樹的綜合性能;基于所述各個決策樹的綜合性能,從所述分 類模型中的模型決策樹和所述增量決策樹中選取預定數量的決策樹來作為 更新后的所述分類模型中的模型決策樹。
通過該實施方式中的數據處理方法,分類模型能夠基于當前新獲得的 數據進行更新,適應數據的新的趨勢變化,進而保證了準確率。另外,由 于增量決策樹的數量基于原始決策樹的數量來確定,因此分類模型的結構、 決策樹數量的配置將更為靈活,有益于提高適用性。
在一種實施方式中,所述各個決策樹的綜合性能至少基于所述各個決 策樹的建立時間以及針對所述增量數據的預測準確率來確定。該實施方式 給出了如何確定決策樹的綜合性能。可以理解的,綜合性能還可以與其它 的參數相關。通過確定決策樹的綜合性能,便可以對各個決策樹進行排序。 具體地,排序的步驟包括:根據所述標簽預測的結果來確定所述各個決策 樹針對所述增量數據的預測準確率;將所述各個決策樹的建立時間作為確 定所述綜合性能的權重,并對所述增量數據的預測準確率進行排序;其中, 建立時間長的決策樹的權重小于建立時間短的決策樹的權重。
在一種實施方式中,根據所述增量數據生成所述增量決策樹包括:對 所述增量數據有放回地抽取多個樣本集,并基于所述多個樣本集進而生成 多個所述增量決策樹。
在一種實施方式中,所述增量決策樹的數量的范圍為是所述分類模型 中的模型決策樹的數量的10%至30%。在該實施方式中,對增量決策樹的 數量進行了限定,在對分類模型進行更新的情況下,不影響分類模型的穩 定性。
在一種實施方式中,所選取的預定數量的決策樹的數目數量等于所述 分類模型中的原有的模型決策樹的數量。該實施方式對選擇的決策樹的數 目進行了限定。
在一種實施方式中,若不存在所述分類模型,則根據歷史數據創建包 括模型決策樹的分類模型,其中,所述歷史數據是已分類的數據。
本發明的第二方面提出了一種有形的計算機可讀存儲介質,該介質包 括指令,當該指令被執行時,引起計算設備至少用于:獲取預定時間段內 的增量數據,并基于是否存在分類模型來確定生成決策樹的數量;若存在 分類模型,則根據所述增量數據生成增量決策樹,并基于所述增量決策樹 和所述分類模型中的模型決策樹和所述增量決策樹來對所述增量數據進行 標簽預測,其中,所述增量決策樹的數量基于所述原始決策樹的數量來確 定;確定所述分類模型中的模型決策樹和所述增量決策樹中的各個決策樹 的綜合性能;基于所述各個決策樹的綜合性能,從所述分類模型中的模型 決策樹和所述增量決策樹中選取預定數量的決策樹來作為更新后的所述分 類模型中的模型決策樹。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于眾安信息技術服務有限公司,未經眾安信息技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710523102.5/2.html,轉載請聲明來源鉆瓜專利網。





