[發(fā)明專利]航班保障數(shù)據(jù)的清理方法在審
| 申請?zhí)枺?/td> | 201710273945.4 | 申請日: | 2017-04-25 |
| 公開(公告)號: | CN107025301A | 公開(公告)日: | 2017-08-08 |
| 發(fā)明(設(shè)計)人: | 金海燕;李喻蒙;秦娟娟;王彬;王磊;黑新宏 | 申請(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安弘理專利事務(wù)所61214 | 代理人: | 燕肇琪 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 航班 保障 數(shù)據(jù) 清理 方法 | ||
1.航班保障數(shù)據(jù)的清理方法,其特征在于,包括以下步驟:
步驟1、對航班保障數(shù)據(jù)進行預(yù)處理;
首先對航班保障數(shù)據(jù)進行屬性清洗,得到停機位數(shù)據(jù),再對停機位數(shù)據(jù)進行異常值清洗;
步驟2、對停機位數(shù)據(jù)的相似重復(fù)記錄進行清洗:
步驟2.1、創(chuàng)建排序關(guān)鍵字并計算停機位數(shù)據(jù)的鍵值;
步驟2.2、按照基于聚簇索引的近鄰排序方法,對停機位數(shù)據(jù)進行排序;
步驟2.3、在排序后的數(shù)據(jù)集上滑動可變大小的窗口,對停機位數(shù)據(jù)的相似重復(fù)記錄進行檢測并清洗。
2.根據(jù)權(quán)利要求1所述的航班保障數(shù)據(jù)的清理方法,其特征在于,所述步驟1中,對航班保障數(shù)據(jù)進行屬性清洗具體分為:
(1)對與停機位信息無關(guān)的數(shù)據(jù)的處理:予以刪除或者不予提取;
(2)對停機位數(shù)據(jù)中缺失值數(shù)據(jù)的處理:缺失值數(shù)據(jù)包括主屬性缺失數(shù)據(jù)和非主屬性缺失數(shù)據(jù),將主屬性缺失數(shù)據(jù)丟棄,從數(shù)據(jù)源中重新獲取或推導(dǎo)得出非主屬性缺失數(shù)據(jù);
(3)對停機位數(shù)據(jù)中違反業(yè)務(wù)規(guī)則的數(shù)據(jù)的處理:通過與數(shù)據(jù)源校對,重新獲取;
(4)對停機位數(shù)據(jù)中同一屬性不同表現(xiàn)形式的數(shù)據(jù)的處理:設(shè)定唯一的表現(xiàn)形式。
3.根據(jù)權(quán)利要求1所述的航班保障數(shù)據(jù)的清理方法,其特征在于,所述步驟1中,采用箱型圖法判斷并剔除停機位數(shù)據(jù)中的異常值,具體過程為:
將所有待清理的停機位數(shù)據(jù)設(shè)為數(shù)據(jù)集A,將數(shù)據(jù)集A等分成α×n個區(qū)間,n為區(qū)間的個數(shù),α為每個區(qū)間中停機位數(shù)據(jù)的個數(shù),β為區(qū)間的大小:
其中,每個區(qū)間內(nèi)的所有停機位數(shù)據(jù)均構(gòu)成一個數(shù)據(jù)集,Dn表示編號為n的數(shù)據(jù)集;
分析停機位數(shù)據(jù)的分布特征,得到數(shù)據(jù)集A的數(shù)據(jù)集中域[i-j,i+j],其中,i-j為最小值數(shù)據(jù)集,即Min{D1,D2,…,Dn},i+j為最大值數(shù)據(jù)集,即Max{D1,D2,…,Dn};將[i-j,i+j]設(shè)為初始數(shù)據(jù)組,對初始數(shù)據(jù)組剔除離群值,得到非離群數(shù)據(jù)組[Q1-3×IQR,Q3+3×IQR],對[Q1-3×IQR,Q3+3×IQR]取非異常數(shù)據(jù)組,得到目標(biāo)數(shù)據(jù)集[Q1-1.5×IQR,Q3+1.5×IQR],將目標(biāo)數(shù)據(jù)集設(shè)為數(shù)據(jù)集B,其中Q1表示第一分位數(shù),Q3表示第三分位數(shù),IQR表示四分位間距IQR=Q3-Q1。
4.根據(jù)權(quán)利要求3所述的航班保障數(shù)據(jù)的清理方法,其特征在于,所述步驟2.1的具體過程為:
抽取停機位數(shù)據(jù)的不同的屬性作為不同的排序關(guān)鍵字;按照排序關(guān)鍵字對數(shù)據(jù)集B中的停機位數(shù)據(jù)的各個字段計算字段值,從而得到停機位數(shù)據(jù)的鍵值,停機位數(shù)據(jù)的鍵值,即為該停機位數(shù)據(jù)中字段值的集合。
5.根據(jù)權(quán)利要求4所述的航班保障數(shù)據(jù)的清理方法,其特征在于,所述步驟2.2具體為:
在數(shù)據(jù)集B中建立聚簇索引,按照停機位數(shù)據(jù)的鍵值,對數(shù)據(jù)集B中的停機位數(shù)據(jù)進行近鄰排列,使得相似重復(fù)記錄排列到鄰近區(qū)域,得到數(shù)據(jù)集C。
6.根據(jù)權(quán)利要求5所述的航班保障數(shù)據(jù)的清理方法,其特征在于,所述步驟2.3的具體過程為:
數(shù)據(jù)集C中的每一個數(shù)據(jù)均構(gòu)成一條記錄,在數(shù)據(jù)集C上滑動可變大小的窗口,滑動過程中采用先進先出策略,窗口滑動時,設(shè)當(dāng)前窗口中的記錄是第1~N條記錄,則接下來進入窗口的記錄是第N+1條記錄,將第N+1條記錄與窗口內(nèi)的第2~N條記錄逐一進行相似度匹配,以此來檢測第N+1條記錄是否是重復(fù)記錄,如果是重復(fù)記錄,剔除該條記錄,如不是重復(fù)記錄,則繼續(xù)向下滑動窗口,直到完成數(shù)據(jù)集C中所有記錄的相似度匹配。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710273945.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:家用酒杯清洗存放一體機
- 下一篇:一種快速清洗鞋內(nèi)部的電動刷
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





