[發明專利]大數據平臺上的自動回歸診斷方法有效
| 申請號: | 201810933414.8 | 申請日: | 2018-08-15 |
| 公開(公告)號: | CN109284320B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 張毅駿;張瑞瑞;陳遠猷;張瀚瀟 | 申請(專利權)人: | 上海派拉軟件股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F17/18 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 201200 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 平臺 自動 回歸 診斷 方法 | ||
1.一種大數據平臺上的自動回歸診斷方法,其特征在于,包括以下步驟:
步驟1、將數據源導入到大數據平臺上,大數據平臺中每臺用于計算的服務器為一個節點;
步驟2、確定數據抽樣個數和每份樣本大小后,對導入大數據平臺的數據進行放回樣本的隨機抽樣;
步驟3、在各個節點上,分別利用核心算法對隨機抽樣得到的每份樣本進行計算,得到每份樣本所對應的回歸模型;
步驟4、對步驟3得到的各回歸模型進行交叉驗證,計算得到最終的回歸模型,其中,步驟3中所述的核心算法包括以下步驟:
步驟301、設定迭代停止條件,迭代停止的條件包括模型的 R 平方和模型的均方誤差;
步驟302、對當前樣本的數據進行線性模型的擬合;
步驟303、計算步驟302得到的模型的R 平方和均方誤差,判斷指標是否滿足步驟301所設的迭代停止條件,若滿足,則將模型作為當前樣本對應的回歸模型輸出,若不滿足,則進入步驟304;
步驟304、對每個自變量單獨求取當前自變量對因變量對應的 Box-Cox 轉換的轉換系數,利用轉換系數的均值,對因變量進行 Box-Cox 轉換;
步驟305、計算方差膨脹系數,刪除自變量中方差膨脹系數大于等于設定閾值的自變量;
步驟306、計算AIC 指標的中位數,刪除自變量中AIC 指標大于 AIC 指標中位數的自變量;
步驟307、計算偏 R 平方,保留自變量中偏 R 平方小于等于A1且大于等于A2的自變量,A1、A2為預先設定的閾值;
步驟308、計算樣本數據中所有數據的學生氏殘差的B%分位數,B為預先設定的閾值,刪除樣本數據中學生氏殘差大于所有數據的學生氏殘差的B%分位數的數據;
步驟309、計算樣本數據中所有數據的刪后殘差,并計算所有數據刪后殘差的B%分位數,刪除刪后殘差大于所有數據刪后殘差的B%分位數的數據;
步驟310、計算樣本數據中所有數據的杠桿值,并計算所有數據杠桿值的B%分位數,刪除杠桿值大于所有數據杠桿值的B%分位數的數據;
步驟311、計算樣本數據中各數據的庫克距離,并計算所有數據的庫克距離 C%分位數,C為預先設定的閾值,且CB,刪除庫克距離大于所有數據的庫克距離 C%分位數的數據;
步驟312、對當前樣本中剩余的數據進行線性模型的擬合,若遍歷所有樣本,則返回步驟4,若未遍歷所有樣本,則返回步驟3。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海派拉軟件股份有限公司,未經上海派拉軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810933414.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





