[發明專利]航班保障數據的清理方法在審
| 申請號: | 201710273945.4 | 申請日: | 2017-04-25 |
| 公開(公告)號: | CN107025301A | 公開(公告)日: | 2017-08-08 |
| 發明(設計)人: | 金海燕;李喻蒙;秦娟娟;王彬;王磊;黑新宏 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安弘理專利事務所61214 | 代理人: | 燕肇琪 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 航班 保障 數據 清理 方法 | ||
1.航班保障數據的清理方法,其特征在于,包括以下步驟:
步驟1、對航班保障數據進行預處理;
首先對航班保障數據進行屬性清洗,得到停機位數據,再對停機位數據進行異常值清洗;
步驟2、對停機位數據的相似重復記錄進行清洗:
步驟2.1、創建排序關鍵字并計算停機位數據的鍵值;
步驟2.2、按照基于聚簇索引的近鄰排序方法,對停機位數據進行排序;
步驟2.3、在排序后的數據集上滑動可變大小的窗口,對停機位數據的相似重復記錄進行檢測并清洗。
2.根據權利要求1所述的航班保障數據的清理方法,其特征在于,所述步驟1中,對航班保障數據進行屬性清洗具體分為:
(1)對與停機位信息無關的數據的處理:予以刪除或者不予提取;
(2)對停機位數據中缺失值數據的處理:缺失值數據包括主屬性缺失數據和非主屬性缺失數據,將主屬性缺失數據丟棄,從數據源中重新獲取或推導得出非主屬性缺失數據;
(3)對停機位數據中違反業務規則的數據的處理:通過與數據源校對,重新獲取;
(4)對停機位數據中同一屬性不同表現形式的數據的處理:設定唯一的表現形式。
3.根據權利要求1所述的航班保障數據的清理方法,其特征在于,所述步驟1中,采用箱型圖法判斷并剔除停機位數據中的異常值,具體過程為:
將所有待清理的停機位數據設為數據集A,將數據集A等分成α×n個區間,n為區間的個數,α為每個區間中停機位數據的個數,β為區間的大小:
其中,每個區間內的所有停機位數據均構成一個數據集,Dn表示編號為n的數據集;
分析停機位數據的分布特征,得到數據集A的數據集中域[i-j,i+j],其中,i-j為最小值數據集,即Min{D1,D2,…,Dn},i+j為最大值數據集,即Max{D1,D2,…,Dn};將[i-j,i+j]設為初始數據組,對初始數據組剔除離群值,得到非離群數據組[Q1-3×IQR,Q3+3×IQR],對[Q1-3×IQR,Q3+3×IQR]取非異常數據組,得到目標數據集[Q1-1.5×IQR,Q3+1.5×IQR],將目標數據集設為數據集B,其中Q1表示第一分位數,Q3表示第三分位數,IQR表示四分位間距IQR=Q3-Q1。
4.根據權利要求3所述的航班保障數據的清理方法,其特征在于,所述步驟2.1的具體過程為:
抽取停機位數據的不同的屬性作為不同的排序關鍵字;按照排序關鍵字對數據集B中的停機位數據的各個字段計算字段值,從而得到停機位數據的鍵值,停機位數據的鍵值,即為該停機位數據中字段值的集合。
5.根據權利要求4所述的航班保障數據的清理方法,其特征在于,所述步驟2.2具體為:
在數據集B中建立聚簇索引,按照停機位數據的鍵值,對數據集B中的停機位數據進行近鄰排列,使得相似重復記錄排列到鄰近區域,得到數據集C。
6.根據權利要求5所述的航班保障數據的清理方法,其特征在于,所述步驟2.3的具體過程為:
數據集C中的每一個數據均構成一條記錄,在數據集C上滑動可變大小的窗口,滑動過程中采用先進先出策略,窗口滑動時,設當前窗口中的記錄是第1~N條記錄,則接下來進入窗口的記錄是第N+1條記錄,將第N+1條記錄與窗口內的第2~N條記錄逐一進行相似度匹配,以此來檢測第N+1條記錄是否是重復記錄,如果是重復記錄,剔除該條記錄,如不是重復記錄,則繼續向下滑動窗口,直到完成數據集C中所有記錄的相似度匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710273945.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:家用酒杯清洗存放一體機
- 下一篇:一種快速清洗鞋內部的電動刷
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





