[發明專利]模型生成方法及裝置、數據處理方法及裝置在審
| 申請號: | 201810916998.8 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN109146076A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 劉志鵬;高睿;鄒存璐 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N99/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 子模型 模型生成 輸出結果 正確率 輸出權重 數據處理 輸出 訓練數據集 集成學習 訓練數據 預測 構建 整合 申請 | ||
本申請實施例公開了一種模型生成方法及裝置和一種利用該模型生成方法得到的模型進行數據處理的方法及裝置。該模型生成方法包括:獲得多個初始構建的子模型,利用與其對應的訓練數據集進行模型的訓練,并使用訓練數據集中輸入數據對每個訓練后的子模型進行輸出結果的預測;根據子模型的預測正確率確定其輸出權重,以利用輸出權重整合每個訓練后的子模型的輸出結果作為模型的輸出,提高正確率高的訓練后的子模型的輸出對模型輸出結果的影響,并降低正確率低的訓練后的子模型的輸出對模型輸出結果的影響,從而提高了集成學習結果的正確率。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種模型生成方法及裝置、數據處理方法及裝置。
背景技術
機器學習是人工智能的一個分支,是實現人工智能的一個途徑,即以機器學習為手段解決人工智能中的問題。其中,集成學習方法是使用一系列“個體學習器”(individuallearner)進行學習,并使用某種規則把各個“個體學習器”的結果進行整合從而獲得比單個個體學習器更好的學習效果的一種機器學習方法。圖1示出了一種集成學習模型的基本結構,先產生一組個體學習器(也可稱為子模型),再通過結合模塊采用某種結合的策略將多個個體學習器的預測輸出結合起來得到最終的輸出。
目前,集成學習方法可大致分為兩大類:一是,個體學習器間存在強依賴關系、必須串行生成的序列化方法,代表是Boosting方式;二是,個體學習器間不存在強依賴關系、可同時生成的并行化方法,代表是Bagging方式。在對多個個體學習器的預測輸出進行結合時,Bagging方式的集成學習結果通常是通過對多個個體學習器的預測輸出采用簡單投票法(即“少數服從多數”)產生,若多數個體學習器的預測輸出錯誤,則會導致集成學習結果出錯,導致現有的Bagging方法存在集成學習結果正確率不高的問題。
發明內容
有鑒于此,本申請實施例提供了一種模型生成方法及裝置、數據處理方法及裝置,能夠解決現有技術中個體學習器的正確率低嚴重影響集成學習結果的正確率,導致集成學習結果正確率不高的問題。
本申請實施例提供的一種模型生成方法,包括:
獲得多個初始構建的子模型,對于每個所述初始構建的子模型均利用與其對應的訓練數據集進行模型的訓練,并使用每個訓練后的子模型,對與其對應的訓練數據集中輸入數據進行輸出結果的預測;所述訓練數據集包括多個實例,每個實例包括輸入數據和輸出結果;生成的模型包括每個訓練后的子模型;
根據目標子模型的預測正確率確定所述目標子模型的輸出權重;所述目標子模型是所述每個訓練后的子模型中的任意一個;所述預測正確率根據所述目標子模型的預測輸出和與其對應的訓練數據集中的輸出結果得到;所述輸出權重用于整合所述每個訓練后的子模型的輸出結果作為所述模型的輸出。
可選的,所述獲得多個初始構建的子模型,對于每個所述初始構建的子模型均利用與其對應的訓練數據集進行模型的訓練,并使用每個訓練后的子模型,對與其對應的訓練數據集中輸入數據進行輸出結果的預測,具體包括:
獲得初始構建的第一子模型和對應的第一訓練數據集,并使用所述第一訓練數據集訓練所述初始構建的第一子模型;
將所述第一訓練數據集中的輸入數據輸入訓練后的第一子模型進行輸出結果的預測,得到第一預測輸出;
根據所述第一預測輸出和所述第一訓練數據集中的輸出結果,統計所述第一訓練數據集中預測錯誤的實例作為第二訓練數據集;
獲得初始構建的第二子模型,并使用所述第二訓練數據集訓練所述初始構建的第二子模型;
其中,所述初始構建的第一子模型和所述初始構建的第二子模型是所述多個初始構建的子模型中的任意兩個,所述多個初始構建的子模型使用相同的模型算法和參數。
可選的,所述統計所述第一訓練數據集中預測錯誤的實例作為第二訓練數據集,之后還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810916998.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于提升骨髓干細胞活性的超聲激勵參數優化方法
- 下一篇:一種SAT求解器





