[發明專利]一種基于優化C5.0和Apriori的民航NOSHOW預測及強因子分析方法有效
| 申請號: | 201810161720.4 | 申請日: | 2018-02-26 |
| 公開(公告)號: | CN108304974B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 林彤;曹衛東;許代代;曾進進 | 申請(專利權)人: | 中國民航信息網絡股份有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王學強 |
| 地址: | 101318 北京市順義區后沙*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 優化 c5 apriori 民航 noshow 預測 因子分析 方法 | ||
一種基于優化C5.0和Apriori的NOSHOW預測及強因子分析方法。其包括收集離港數據,選取與NOSHOW相關的N項指標的數據作為屬性因子集合,將由N項指標的數據組成的數據樣本集合分成訓練樣本集合和測試樣本集合;利用訓練樣本集合,采用優化C5.0決策樹算法構造NOSHOW預測模型,用測試樣本集合對NOSHOW預測模型進行驗證分析,同時生成與NOSHOW相關的屬性因子的量化結果;從量化結果中提取與NOSHOW相關的強因子,采用Apriori算法對提取出來的強因子進行關聯規則挖掘等步驟。本發明不僅降低高成本分類錯誤率,而且在運行速度和內存執行效率上得到了提高,生成的規則集更直觀、更準確。對影響NOSHOW的屬性因子進行量化,得到了不同影響程度的量化結果。
技術領域
本發明屬于民航旅客NOSHOW預測技術領域,特別是涉及一種基于優化C5.0和Apriori的NOSHOW預測及強因子分析方法。
背景技術
在航空市場中,經常有旅客訂座后卻不能如期登機(NOSHOW),這種行為最終會導致座位虛耗,從而給航空公司造成巨額經濟損失。航空公司解決NOHSOW的主要手段是超售,但是,目前國內外超售控制方法在實際應用中存在著較高的拒載風險,而影響拒載風險的最主要因素是對NOSHOW預測的準確性。因此,構建較高準確性的NOSHOW預測模型可以為航空公司提供準確的超售依據,將拒載風險降至最低,從而使收益最大化。
傳統的NOHSOW預測方法并未考慮旅客信息因素,僅僅分析特定航班的起飛時間、航班容量、出發地、目的地等因素,如時間序列模型、因果模型、混合模型;基于傳統NOSHOW預測基礎上,考慮旅客信息因素,目前主要研究有:GARROWKOPPELMAN基于旅客及定向出站/入境行程數據,使用多項Logistic回歸對傳統模型改進,但易出現由于有帶偏參數估計導致模型解釋能力下降;黃文強基于歷史各個購票旅客的各種屬性及最后是否NOSHOW情況,采用SVM(支持向量機)構建NOSHOW預測模型,該模型具有很好的概化性能,但是會因特征過多的引入而導致性能退化;SEJUNE HONG在基于歷史航班旅客平均NOSHOW比率的基礎上,采用了非參數的C4.5決策樹進行模型預測,該模型雖然解決了上述兩類問題,實現了較好的分類,但是在構造決策樹的過程中需要對數據集多次掃描、排序,導致運行速度與內存執行效率降低,同時構建的決策樹較復雜,分類規則層層嵌套。另外,2017年,翟盼盼等人提出基于粗糙集特征提取方法,并對特征進行挖掘,該方法雖然挖掘出NOSHOW相關的規則,但是并未構建NOSHOW預測模型。由于民航信息系統中的CKI(Check-In,離港信息)是大數據集,因此,需要構建低成本、高效率的NOSHOW預測模型來減少收益漏洞。
發明內容
為了解決上述問題,本發明的目的在于提供一種基于優化C5.0和Apriori的NOSHOW預測及強因子分析方法。
為了達到上述目的,本發明提供的基于優化C5.0和Apriori的NOSHOW預測及強因子分析方法包括按按順序進行的下列步驟:
步驟一、收集民航旅客信息服務系統產生的離港數據,從中選取與NOSHOW相關的N項指標的數據作為屬性因子集合,然后將其中的部分數據進行預處理,之后將上述由N項指標的數據組成的數據樣本集合分成訓練樣本集合和測試樣本集合;
步驟二、利用上述訓練樣本集合,采用優化C5.0決策樹算法構造NOSHOW預測模型,用測試樣本集合對NOSHOW預測模型進行驗證分析,同時生成與NOSHOW相關的屬性因子的量化結果;
步驟三、從上述量化結果中提取與NOSHOW相關的強因子,采用Apriori算法對提取出來的強因子進行關聯規則挖掘。
在步驟一中,所述的收集民航旅客信息服務系統產生的離港數據,從中選取與NOSHOW相關的N項指標的數據作為屬性因子集合,然后將其中的部分數據進行預處理,之后將上述由N項指標的數據組成的數據樣本集合分成訓練樣本集合和測試樣本集合的方法是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國民航信息網絡股份有限公司,未經中國民航信息網絡股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810161720.4/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





