[發明專利]對輸入數據記錄集執行基于集成模型的預測的方法和系統有效
| 申請號: | 201410359973.4 | 申請日: | 2014-07-25 |
| 公開(公告)號: | CN104345974B | 公開(公告)日: | 2017-10-13 |
| 發明(設計)人: | P·塞考茲;M·科羅泊泰克;K·思考羅恩思基 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F3/041 | 分類號: | G06F3/041 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所11038 | 代理人: | 李玲 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輸入 數據 記錄 執行 基于 集成 模型 預測 方法 系統 | ||
技術領域
本發明涉及計算機實現的預測方法領域。更具體地,本發明涉及使用決策樹或回歸樹來用于自動預測。
背景技術
決策樹和回歸樹是廣泛使用的預測模型。決策樹是可以用來將輸入數據分成不同的預定類的數據結構。回歸樹是可以用來根據輸入數據計算數據值形式(例如,整數)的預測結果的數據結構。下面會將根據一些輸入數據來計算結果數據值和分成預定類稱為“預測”。
為了增加準確性,通常的方法是使用多個決策樹的組合或者多個回歸樹的組合來計算預測。所述樹的集合被稱為“樹集成模型”或者“集成模型”(ensemble model)。需要使用合適的組合方案對集成模型中每個樹的預測進行組合,例如用于決策樹集成的未加權或加權投票函數和用于回歸樹集成的未加權或加權平均。
對預測使用單個樹模型通常是快速處理,即使是改善的樹模型。不幸的是,對于可能包括幾千個單個的樹的集成模型來說不是這樣的:使用N個樹的集成來預測結果所需的時間是使用單個樹模型時所需的預測時間的N倍。從而,通過使用多個樹獲得的精度上的改進會帶來高計算成本的缺點。
基于集成樹的預測的很大的計算成本也是執行(分析)數據庫中的這些算法的障礙,所述算法必須提供足夠的處理能力來執行在多個數據庫表上的復雜連接(join)和其他需要大量計算的任務,因此不能在基于樹的預測上花太多的CPU能力。
有些數據庫內的分析環境,諸如IBM Netezza分析,已經包括一些基于決策樹和回歸樹的預測邏輯。基于存儲的程序和用戶自定義的函數或集合來實施所述邏輯。大量的開銷與采用所述基于樹的預測邏輯有關,因為集成模型的不同樹在其上運行的輸入數據集必須是冗余存儲的。另外,針對每個樹的臨時表創建和存儲程序的調用會增加計算開銷。當在同一輸入數據集上順序處理樹時也可能產生后一種開銷。因此,必須要冗余地創建和保持輸入數據集的表和索引結構。這增加了處理成本,并減慢了當前的數據庫內分析方案中的基于樹的預測。通常,使用的輸入數據集是小的或者中等大小的。在這種情況下,與實際預測的計算成本有關的輸入數據集及其副本的處理成本在存儲器和CPU消耗方面是特別昂貴的。
發明內容
本發明實施方式的目的是提供一種使用集成模型來自動預測的改進的方法。通過獨立權利要求的主題解決所述目的。從屬權利要求描述了優選的實施方式。除非明確說明,否則本發明的實施方式可以相互自由組合。
在此使用的“數據庫”是由數據庫管理系統(DBMS)管理的有組織的數據集合。特別地,DBMS可以是列型或關系型DBMS。DBMS的示例眾所周知的有諸如MySQL、PostgreSQL、SQLite和IBM DB2的DBMS。DBMS可以嵌入ERP系統中或者諸如IBM Netezza Analytics的分析平臺中。
在此使用的“拆分標準”(split criterion)可以是與決策樹或回歸樹中的節點相關的、用于評估輸入數據記錄的一個或多個屬性的屬性值的任何類型的程序邏輯。根據評估結果,所述輸入數據記錄可以被分配(“傳遞”或“調度”)到所述節點的一個或多個子節點中的一個子節點。拆分標準例如可以實施為針對特定的屬性專用閾值運行的比較函數。根據輸入記錄的屬性值超過或者等于或低于所述閾值,數據記錄可以被分配到子節點中的一個子節點。拆分標準例如可以是平等條件、子集隸屬條件、離散屬性值的值條件(每個屬性值對應于一個子節點)、不平等條件、間隔劃分條件等等。例如,拆分標準可以包括一個或多個參考值,或者包括與匹配函數相結合的一個或多個不相交的參考值范圍。匹配函數可以將輸入數據記錄的屬性值與屬性專用參考值或值范圍相比較。每個參考值或值范圍可以代表包括拆分標準的當前節點的子節點中的一個子節點,以及輸入數據記錄將被再分配給其參考值或參考值范圍與輸入數據記錄的屬性值匹配的一個子節點。可替換的,拆分標準可以是更復雜的函數,例如,指數或對數函數、支持向量機(SVM)、神經網絡、統計函數或任何其他用于評估一個或多個屬性值并返回數據記錄將分配到哪個子節點的決策的合適的函數。
在此使用的“并行數據庫系統”為DBMS,該DBMS使用至少一些其操作的并行化,特別的,像從存儲器加載數據、創建索引和評估查詢的操作。并行DBMS可操作用于將數據和過程自動分配到多個存儲設備和CPU。可以通過并行DBMS基于對性能的考慮來自動管理數據和過程的分布。并行DBMS例如可以基于多處理器體系結構或混合體系結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410359973.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





