[發明專利]預測模型建立裝置、方法及計算機可讀存儲介質在審
| 申請號: | 201710715445.1 | 申請日: | 2017-08-20 |
| 公開(公告)號: | CN107688872A | 公開(公告)日: | 2018-02-13 |
| 發明(設計)人: | 徐亮;李弦;商瑾;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q30/02;G16H50/80;G06F17/18 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙)44347 | 代理人: | 于志光,郭夢霞 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預測 模型 建立 裝置 方法 計算機 可讀 存儲 介質 | ||
技術領域
本發明涉及終端技術領域,尤其涉及一種預測模型建立裝置、方法及計算機可讀存儲介質。
背景技術
目前,通過機器學習對數據進行預測的技術在越來越多的領域得到應用,例如廣告點擊率的預測、某種流行性疾病的發病率的預測等等,目前普遍采用的方式時,采集這些待預測項目的歷史數據構成時間序列,基于這個時間序列本身的特征建立自相關回歸時間序列模型(ARIMA)進行預測,但該模型只用到待預測項目自身的趨勢特征進行預測,無法結合預測外部特征使用,導致預測準確性不高。
發明內容
本發明提供一種預測模型建立裝置、方法及計算機可讀存儲介質,其主要目的在于結合待測項目的外源特征與自回歸時間特征建立預測模型,提高預測模型的預測精準度。
為實現上述目的,本發明提供一種預測模型建立裝置,該裝置包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的預測模型建立程序,所述預測模型建立程序被所述處理器執行時實現如下步驟:
A、獲取待測項目在目標時間單元之前的一個或多個時間單元內的外源特征,以及在目標時間單元前的自回歸時間特征;
B、對所述外源特征進行預處理,并對所述自回歸時間特征和經過所述預處理的外源特征進行歸一化處理,以獲取歸一化的特征集;
C、按照預設規則對所述特征集中的特征進行特征篩選,以獲取預測特征;
D、將所述待測項目在所述目標時間單元內的實際觀測值作為預測目標,將所述多個預測特征和所述預測目標作為一個預測樣本;
E、按照所述A至D的步驟分別獲取多個時間單元的多個預測樣本,將所述多個預測樣本輸入到預設回歸模型中進行訓練以確定模型參數,將確定模型參數后的所述預設回歸模型作為所述待測項目的預測模型。
可選地,若所述外源特征包括所述待測項目對應的搜索指數集,所述預處理為極值優化處理,則所述對所述外源特征進行預處理的步驟包括:
獲取所述搜索指數集的第一四分位數、第三四分位數和四分差;
根據所述第一四分位數、所述第三四分位數和所述四分差確定搜索指數的第一閾值和第二閾值,所述第一閾值小于所述第二閾值;
將所述搜索指數集中大于所述第二閾值的搜索指數轉換為所述第二閾值,將所述搜索指數集中小于所述第一閾值的搜索指數轉換為所述第一閾值
可選地,所述對所述外源特征進行預處理的步驟還包括:
根據鄰近kNN算法,對經過極值優化處理的搜索指數進行缺失值補充。
可選地,所述按照預設規則對所述特征集中的特征進行特征篩選,以獲取預測特征的步驟包括:
計算所述特征集中的各個特征值的pearson相關系數;
將所述特征集中選擇pearson相關系數小于或者等于預設相關系數的特征,作為預測特征。
可選地,所述待測項目為流感預測項目,所述外源特征包括搜索指數、天氣特征和環境特征,所述預設回歸模型為LASSO回歸模型。
此外,為實現上述目的,本發明還提供一種預測模型建立方法,該方法包括:
A、獲取待測項目在目標時間單元之前的一個或多個時間單元內的外源特征,以及在目標時間單元前的自回歸時間特征;
B、對所述外源特征進行預處理,并對所述自回歸時間特征和經過所述預處理的外源特征進行歸一化處理,以獲取歸一化的特征集;
C、按照預設規則對所述特征集中的特征進行特征篩選,以獲取預測特征;
D、將所述待測項目在所述目標時間單元內的實際觀測值作為預測目標,將所述多個預測特征和所述預測目標作為一個預測樣本;
E、按照所述A至D的步驟分別獲取多個時間單元的多個預測樣本,將所述多個預測樣本輸入到預設回歸模型中進行訓練以確定模型參數,將確定模型參數后的所述預設回歸模型作為所述待測項目的預測模型。
可選地,若所述外源特征包括所述待測項目對應的搜索指數集,所述預處理為極值優化處理,則所述對所述外源特征進行預處理的步驟包括:
獲取所述搜索指數集的第一四分位數、第三四分位數和四分差;
根據所述第一四分位數、所述第三四分位數和所述四分差確定搜索指數的第一閾值和第二閾值,所述第一閾值小于所述第二閾值;
將所述搜索指數集中大于所述第二閾值的搜索指數轉換為所述第二閾值,將所述搜索指數集中小于所述第一閾值的搜索指數轉換為所述第一閾值。
可選地,所述對所述外源特征進行預處理的步驟還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710715445.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電動自行車右電機殼鉆孔裝置
- 下一篇:一種彈匣銑削工裝
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





