[發明專利]模型更新裝置及方法、數據處理裝置及方法、程序在審
| 申請號: | 201310647831.3 | 申請日: | 2013-12-04 |
| 公開(公告)號: | CN104699685A | 公開(公告)日: | 2015-06-10 |
| 發明(設計)人: | 夏迎炬;孫健;王云芝;李中華 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王萍;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 更新 裝置 方法 數據處理 程序 | ||
1.一種對多模型系統中的目標模型進行更新的模型更新裝置,其中,多模型系統中的各個模型是針對訓練數據集采用不同方式預先訓練得到的模型,所述模型更新裝置包括:
偽標簽獲取單元,被配置為使用所述多模型系統中不同于所述目標模型的模型作為校準模型對待測數據集進行處理,并將處理的結果作為偽標簽;
第一特征分布獲取單元,被配置為基于所述偽標簽獲得所述待測數據集的特征分布;
第二特征分布獲取單元,被配置為基于所述目標模型獲取所述訓練數據集的特征分布;
調整單元,被配置為基于所述訓練數據集的特征分布和所述待測數據集的特征分布來調整所述目標模型的特征空間劃分,以使得所述訓練數據集和所述待測數據集針對該特征空間劃分具有類似的分布;以及
更新單元,被配置為基于調整后的特征空間劃分使用所述訓練數據集來更新所述目標模型。
2.根據權利要求1所述的模型更新裝置,其中,所述調整單元包括:
分區模塊,被配置為將所述訓練數據集和所述待測數據集的特征空間劃分為多個區域;
分布計算模塊,被配置為分別基于所述訓練數據集的特征分布和所述待測數據集的特征分布,計算相鄰的一個或更多個區域在所述訓練數據集和所述待測數據集上的分布;
距離計算模塊,被配置為計算相鄰的一個或更多個區域的兩種分布之間的距離;以及
合并模塊,被配置為在所述距離小于預定閾值時將所述相鄰的一個或更多個區域合并作為所述特征空間的一個劃分。
3.根據權利要求2所述的模型更新裝置,其中,所述距離為KL距離。
4.根據權利要求2所述的模型更新裝置,其中,所述距離計算模塊被配置為使用貝葉斯量度來計算所述相鄰的一個或更多個區域在所述訓練數據集上的分布作為所述距離。
5.根據權利要求1至4中的任意一項所述的模型更新裝置,其中,所述校準模型是所述多模型系統中所述目標模型以外的性能最好的模型。
6.根據權利要求1至4中的任意一項所述的模型更新裝置,其中,所述校準模型與所述目標模型分別采用原理上互補的算法獲得。
7.根據權利要求1至4中的任意一項所述的模型更新裝置,其中,所述多個模型包括基于如下中的一種或更多種方法獲得的模型:支持向量機、隨機森林、決策樹、K最鄰近結點算法、Boosting算法、樸素貝葉斯算法和最大熵算法。
8.根據權利要求1至4中的任意一項所述的模型更新裝置,其中,所述模型更新裝置被配置為定期進行更新。
9.一種使用多模型系統對待測數據集進行處理的數據處理裝置,包括根據權利要求1至8中的任意一項所述的模型更新裝置。
10.一種對多模型系統中的目標模型進行更新的模型更新方法,其中,多模型系統中的各個模型是針對訓練數據集采用不同方式預先訓練得到的模型,所述模型更新方法包括:
使用所述多模型系統中不同于所述目標模型的模型作為校準模型對待測數據集進行處理,并將處理的結果作為偽標簽;
基于所述偽標簽獲得所述待測數據集的特征分布;
基于所述目標模型獲取所述訓練數據集的特征分布;
基于所述訓練數據集的特征分布和所述待測數據集的特征分布來調整所述目標模型的特征空間劃分,以使得所述訓練數據集和所述待測數據集針對該特征空間劃分具有類似的分布;以及
基于調整后的特征空間劃分使用所述訓練數據集來更新所述目標模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社;,未經富士通株式會社;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310647831.3/1.html,轉載請聲明來源鉆瓜專利網。





