[發明專利]主動式數據建模在審
| 申請號: | 201810395943.7 | 申請日: | 2018-04-27 |
| 公開(公告)號: | CN110427351A | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 邵斌;夏歡歡;劉鐵巖 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華;丁君軍 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自變量 數據集 目標模型 數據建模 主動式 子集 計算機程序產品 建模過程 數據約束 數據子集 指示數據 合并 建模 預測 | ||
在本公開的實施例中,提出了一種針對數據集的主動式數據建模的方法、設備以及計算機程序產品。針對給定數據集,主動地選擇第一子集以生成至少以第一變量為自變量的第一模型,并且主動地選擇第二子集以生成至少以第二變量為自變量的第二模型。然后,將第一模型和第二模型進行合并,以生成指示數據集中的數據約束條件的目標模型,以用于基于數據集進行預測。在本公開的實施例中,主動地選擇多個數據子集以便針對多個自變量生成多個模型,并且合并多個模型以生成最終的目標模型。因此,本公開的實施例能夠減少建模過程中的自變量的數目,從而有效提高針對數據集的建模效率。
背景技術
數據建模是指以數據為基礎生成模型,其通過分析給定數據集中的數據對象,確定這些數據對象之間的關系或者約束條件,然后生成最適合給定數據集的模型。數據建模的方法包括回歸分析、統計分析、機器學習、深度學習、灰色預測、主成分分析、神經網絡以及時間序列分析,等等。
回歸分析作為一種最常用的建模方法,其用于發現因變量與自變量之間的關系。回歸分析按照所涉及的自變量的數目,可以分為一元回歸和多元回歸分析;按照因變量的多少,可以分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關系類型,可以分為線性回歸分析和非線性回歸分析。符號回歸(symbolic regression)是一種類型的回歸分析,其通過進化搜索(諸如遺傳編程)找到最適合給定數據集的模型(諸如函數),符號回歸的目標是自動地發現數據集中的模式、約束條件或規律。
發明內容
在本公開的實施例中,提出了一種針對數據集的主動式數據建模的方法、設備以及計算機程序產品。針對給定數據集,主動地選擇第一子集以生成至少以第一變量為自變量的第一模型,并且主動地選擇第二子集以生成至少以第二變量為自變量的第二模型。然后,將第一模型和第二模型進行合并,以生成指示數據集中的數據約束條件的目標模型,以用于基于數據集進行預測。在本公開的實施例中,主動地選擇多個數據子集以便針對多個自變量生成多個模型,并且通過合并多個模型來生成最終的目標模型。因此,本公開的實施例能夠減少建模過程中的自變量的數目,從而有效提高針對數據集的建模效率。
提供發明內容部分是為了以簡化的形式來介紹對概念的選擇,它們在下文的具體實施方式中將被進一步描述。該發明內容部分無意標識本公開的關鍵特征或主要特征,也無意限制本公開的范圍。
附圖說明
結合附圖并參考以下詳細說明,本公開各實施例的上述和其他特征、優點及方面將變得更加明顯。在附圖中,相同或相似的附圖標記表示相同或相似的元素,其中:
圖1示出了其中可以實施本公開的一個或多個實施例的計算設備/服務器的框圖;
圖2示出了根據本公開的實施例的用于主動式數據建模的方法的流程圖;
圖3A示出了根據本公開的實施例的用于生成第一模型的方法的流程圖;
圖3B示出了根據本公開的實施例的用于生成第二模型的方法的流程圖;
圖3C示出了根據本公開的實施例的通過樹匹配生成目標模型的方法的流程圖;
圖4A示出了根據本公開的實施例的勻加速直線運動的示意圖;
圖4B示出了根據本公開的實施例的與勻加速直線運動有關的數據集的示意圖;
圖4C示出了圖4B中所示出的數據集中的數據子集的示意圖;
圖4D示出了根據本公開的實施例的用于生成表示每個模型的樹的示意圖;
圖4E示出了通過匹配圖4D中的各個樹而生成的目標樹的示意圖;以及
圖5示出了根據本公開的主動式建模方法與深度學習方法的實驗結果的比較的示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810395943.7/2.html,轉載請聲明來源鉆瓜專利網。





