[發明專利]用于數據預測的模型選擇設備和方法在審
| 申請號: | 201310616088.5 | 申請日: | 2013-11-27 |
| 公開(公告)號: | CN104679754A | 公開(公告)日: | 2015-06-03 |
| 發明(設計)人: | 王云芝;夏迎炬;孫健;李中華 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 康建峰;賈萌 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 數據 預測 模型 選擇 設備 方法 | ||
技術領域
本公開一般地涉及數據預測領域,尤其涉及一種用于數據預測的模型選擇設備和方法。
背景技術
在數據挖掘領域,對于諸如預測、分類等任務,可用的模型很多。例如對于預測任務而言,常見的可用模型包括線性回歸模型、支持向量回歸模型、以及諸如極端學習機的基于神經網絡的模型等。
這些模型分別有其適用特點,對于不同的數據預測任務,甚至在不同數據集上,效果存在差異。一般說來,某些特定模型在特定任務和數據集上效果會比別的模型更好。
為了達到最好的數據預測效果,常需要在前期對可選模型進行選擇,以便使用最適合當前任務下的當前數據集的最好模型,提高預測準確度。
現有的針對數據預測任務的模型選擇,大多數依賴一定程度上的人工挑選。例如,在數據集的一個子集上用初步試驗選取效果較好的模型,或者使用交叉驗證的方法,將數據集分成多份,一部分用于訓練,一部分用于驗證。無論是哪種方法,都要依賴一定程度的人工干預,并且往往只能通過完整數據集上很小比例的子集結果完成模型選擇,局限性較大。同時,操作起來比較繁瑣,時間損耗也較大,效果卻很有可能不夠準確。
發明內容
鑒于存在的問題,本公開的目的是提供一種新型的可以廣泛應用于數據預測任務的自動模型選擇方法。這種方法和傳統方法相比,可以通過自動的、無人工干預的模型選擇過程,實現更高效、更準確的模型選擇過程,提高模型使用效果。
根據本公開的一個方面,提供一種用于數據預測的模型選擇設備,包括:矩陣分解單元,被配置為對預測矩陣進行奇異值分解,其中,所述預測矩陣的行/列向量是樣本向量,列/行向量是對應維度的特征向量,樣本向量之一是包含待預測特征序列的待預測向量;模型選擇單元,被配置為基于由矩陣分解單元通過進行奇異值分解獲得的、能夠反映預測矩陣的樣本向量的子矩陣來選擇要應用于待預測特征序列的預測的模型。
由于基于通過奇異值分解獲得的子矩陣來選擇要應用于待預測特征序列的預測模型,降低了矩陣計算的維度、去除了噪聲,只保留了影響最大的原始數據維度,因而能夠自動、準確地為待預測特征序列的每個維度選擇最佳預測模型。
在根據本公開的實施例中,模型選擇單元可以被配置為:計算子矩陣中對應于已知向量的各子已知向量和對應于待預測向量的向量之間的相似度,已知向量是樣本向量中待預測向量之外的樣本向量;以及相似度最高的若干個子已知向量所對應的已知向量的所有預測維度的最佳模型作為候選模型,其中,預測維度是已知向量的預測所包含的預測單元。
利用奇異值分解的子矩陣中的向量的意義與原矩陣的向量的意義相對應的特點,使用子矩陣來計算各向量間的相似度,從而大大減小了計算量。并且使用相似度較高的已知向量的各維度的最佳預測模型作為待預測向量的預測模型的候選,完成了預測模型的初步選擇。
在根據本公開的實施例中,模型選擇單元可以被配置為:通過將候選模型在相似度最高的若干個已知向量中對應預測維度出現的次數按候選模型在所有先前預測中成為最佳模型的概率加權來計算候選模型的得分;以及將分值最高的候選模型確定為待預測序列的對應預測維度的最佳模型。
在完成模型的初步選擇后,為了得到最佳的預測模型,還可以對候選模型進行進一步打分評估。通過將候選模型在相似度最高的若干個已知向量中對應預測維度出現的次數按候選模型在所有先前預測中成為最佳模型的概率加權來計算候選模型的得分,同時考慮了候選模型在歷史數據集中出現的概率以及其在對應預測維度出現的概率,使得模型的選擇更加準確。
在根據本公開的實施例中,待預測特征序列可以包括維數等于待預測特征個數的、具有給定初設值的元素。
元素的給定初設值的設定能夠方便后續的矩陣計算。
在根據本公開的實施例中,該模型選擇設備還可以包括預測矩陣構造單元,被配置為利用待預測特征序列與已知樣本序列來構造預測矩陣。
在根據本公開的實施例中,預測矩陣構造單元可以被配置為:預測矩陣構造單元被配置為:將已知樣本序列與待預測特征序列按特定順序擴展為第一擴展序列,以用作待預測向量;參照第一擴展序列的擴展方式對已知樣本序列進行擴展,得到第二擴展序列組,以用作已知向量組;以及將第一擴展序列和第二擴展序列組構造為矩陣,并且,將待預測特征序列中的各元素設置為給定初設值。
通過使用待預測序列和已知數據進行序列的擴展、矩陣的構建來獲得包括具有對應關系的待預測向量和已知向量的預測矩陣,從而為簡化預測模型的選擇提供了方便。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社;,未經富士通株式會社;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310616088.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:從文檔中提取關鍵詞的方法和設備
- 下一篇:去重復數據的恢復方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





