[發明專利]基于機器學習的預測分類方法、裝置和計算機設備在審
| 申請號: | 202010281340.1 | 申請日: | 2020-04-10 |
| 公開(公告)號: | CN111522862A | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 唐永鵬;劉碩凌;程寧;韓雷 | 申請(專利權)人: | 易方達基金管理有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q40/04;G06N20/00 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 預測 分類 方法 裝置 計算機 設備 | ||
本發明提供了一種基于機器學習的預測分類方法、裝置和計算機設備。該方法包括:獲取經濟數據集;確定每條經濟數據對應的分類結果;根據經濟數據集和每條經濟數據對應的分類結果構建P個第一數據集,其中,第一數據集包括若干條經濟數據和對應的分類結果,且第一數據集中的經濟數據在時間上不延續;根據經濟數據構建輸入特征,將經濟數據對應的分類結果作為輸出,針對每個第一數據集構建初始機器學習模型,并進行W折交叉驗證;在W*P個訓練好的機器學習模型中按照預設要求選擇若干最終模型;根據待預測經濟數據構建待預測輸入特征,并將待預測輸入特征輸入至最終模型,以得到預測分類結果。通過本發明,能夠提升預測分類的準確性。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種基于機器學習的預測分類方法、裝置和計算機設備。
背景技術
隨著機器學習、大數據等技術的發展,通過現實歷史數據的特征預測未來指標結果的應用越來越廣泛,其中,通常需要先利用部分數據,也即訓練數據進行機器學習得到訓練好的學習模型,然后再用另一部分數據,也即測試數據進行測試,當訓練好的學習模型在測試數據中滿足預測準確性要求時,在對待預測的數據進行預測,從而進一步能夠基于預測結果來指導實際生成生活,具體地,在現有技術中,通?;跁r間進行測試數據和訓練數據的切分,設定一個時間點之前的數據為訓練數據,之后的數據為測試數據。
但是,發明人研究發現,當現實歷史數據為經濟數據時,基于經濟數據本身在時間上具備延續性,樣本前后相關性較強,通過時間點直接切分訓練數據和測試數據的方式,無論測試樣本還是訓練樣本之間,均具有較強的相關性,導致訓練好的學習模型的泛化能力弱,在對待預測的數據進行預測時并不能得到很好的預測結果。
因此,提供一種基于機器學習的預測分類方法、裝置和計算機設備,進一步提升在經濟學領域基于機器學習的預測分類方法的準確性,成為本領域亟需解決的技術問題。
發明內容
本發明的目的是提供一種基于機器學習的預測分類方法、裝置和計算機設備,用于解決現有技術中的上述技術問題。
一方面,為實現上述目的,本發明提供了一種基于機器學習的預測分類方法。
該基于機器學習的預測分類方法包括:獲取經濟數據集,其中,經濟數據集包括在時間上延續N條經濟數據,每條經濟數據包括M個經濟特征,其中,N和M均為自然數;確定每條經濟數據對應的分類結果,其中,分類結果包括第一結果和第二結果;根據經濟數據集和每條經濟數據對應的分類結果構建P個第一數據集,其中,第一數據集包括若干條經濟數據和對應的分類結果,且第一數據集中的經濟數據在時間上不延續,P為自然數;根據經濟數據構建輸入特征,將經濟數據對應的分類結果作為輸出,針對每個第一數據集構建初始機器學習模型,并進行W折交叉驗證,得到W*P個訓練好的機器學習模型;在W*P個訓練好的機器學習模型中按照預設要求選擇若干最終模型;根據待預測經濟數據構建待預測輸入特征,并將待預測輸入特征輸入至最終模型,以得到預測分類結果。
進一步地,采用以下方法構建P個第一數據集:以P為間隔將經濟數據集進行分割,得到Q個數據集單元,其中,P*Q小于或等于N;將各個數據集單元中相同位置的經濟數據及其對應的分類結果劃分為同一數據集,以得到第一數據集。
進一步地,根據經濟數據構建輸入特征的步驟包括:獲取第一數據集中的第一經濟數據,其中,第一經濟數據為第一數據集中的任意一條經濟數據,第一經濟數據包括第1至第n經濟特征;確定時間區間集合{t1,t2,...tm};在經濟數據集中獲取第x經濟特征之前且與第x經濟特征屬于同類的ty個經濟特征的平均值,作為第x經濟特征對應的第y維特征,其中,x=1,2,...,n,y=1,2,...,m;將第一經濟數據中的每個經濟特征對應的m維特征作為輸入特征。
進一步地,在W*P個訓練好的機器學習模型中按照預設要求選擇若干最終模型的步驟包括:獲取W*P個訓練好的機器學習模型中AUC大于60%的機器學習模型作為最終模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于易方達基金管理有限公司,未經易方達基金管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010281340.1/2.html,轉載請聲明來源鉆瓜專利網。





