[發(fā)明專利]一種基于優(yōu)化C5.0和Apriori的民航NOSHOW預測及強因子分析方法有效
| 申請?zhí)枺?/td> | 201810161720.4 | 申請日: | 2018-02-26 |
| 公開(公告)號: | CN108304974B | 公開(公告)日: | 2022-02-08 |
| 發(fā)明(設計)人: | 林彤;曹衛(wèi)東;許代代;曾進進 | 申請(專利權)人: | 中國民航信息網(wǎng)絡股份有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/30 |
| 代理公司: | 北京集佳知識產(chǎn)權代理有限公司 11227 | 代理人: | 王學強 |
| 地址: | 101318 北京市順義區(qū)后沙*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 優(yōu)化 c5 apriori 民航 noshow 預測 因子分析 方法 | ||
1.一種基于優(yōu)化C5.0和Apriori的民航NOSHOW預測及強因子分析方法,其特征在于:所述方法包括按順序進行的下列步驟:
步驟一、收集民航旅客信息服務系統(tǒng)產(chǎn)生的離港數(shù)據(jù),從中選取與NOSHOW相關的N項指標的數(shù)據(jù)作為屬性因子集合,然后將其中的部分數(shù)據(jù)進行預處理,之后將上述由N項指標的數(shù)據(jù)組成的數(shù)據(jù)樣本集合分成訓練樣本集合和測試樣本集合;
步驟二、利用上述訓練樣本集合,采用優(yōu)化C5.0決策樹算法構造NOSHOW預測模型,用測試樣本集合對NOSHOW預測模型進行驗證分析,同時生成與NOSHOW相關的屬性因子的量化結果;
步驟三、從上述量化結果中提取與NOSHOW相關的強因子,采用Apriori算法對提取出來的強因子進行關聯(lián)規(guī)則挖掘;
在步驟二中,所述的利用上述訓練樣本集合,采用優(yōu)化C5.0決策樹算法構造NOSHOW預測模型,用測試樣本集合對NOSHOW預測模型進行驗證分析,同時生成與NOSHOW相關的屬性因子的量化結果的方法是:
設訓練樣本=S,A,C,其中S是訓練樣本集合,A是與NOSHOW相關的屬性因子,即輸入變量,C為是否IS_NOSHOW類別集合,即輸出變量;設訓練樣本集合S中有m個相互不同的類Ci,i=1,2,...m;ni是S中屬于類別Ci的樣本數(shù),屬性A有V個取值:{a1,a2,...av},將訓練樣本集合S分成子集{S1,S2,...Sv},nij是子集Sj中類別Ci的樣本數(shù);
(1)定義訓練樣本集合S的信息熵,并將其記為Info(S),計算公式如下:
其中pi為任意抽取樣本屬于類別Ci的概率
(2)計算屬性因子A的條件熵,并將其為Info(S/A),公式如下:
其中pij為子集Sj屬于類別Ci的概率,
(3)根據(jù)上述訓練樣本集合S的信息熵和屬性因子A的條件熵計算屬性因子A的信息增益,并將其記為Gain(A),公式如下:
Gain(A)=Info(S)-Info(S/A);
(4)計算屬性因子A的分裂信息熵,并將其記為SplitInfo(A),公式如下:
(5)根據(jù)屬性因子A的信息增益和屬性因子A的分裂信息熵計算屬性因子A的信息增益率,并將其記為GainRs(A),公式如下:
(6)待按照步驟(2)至步驟(5)計算出所有屬性因子A的信息增益率后,以具有最大信息增益率的屬性因子A作為最佳分組變量Vbest,按照最佳分組變量Vbest的k個取值而將訓練樣本集合S重新分成k組,生成決策樹的k個分支;
(7)重復步驟(1)至步驟(6),直至各分支繼續(xù)分組不再有意義為止;由此構造出初始NOSHOW預測模型;
(8)定義將屬于類別Cj的樣本誤判為類別Ci的誤判成本值,并將其記為Cost(i,j),若i=j,則Cost(i,j)=0;否則Cost(i,j)0;
(9)定義將屬于類別Ci的樣本誤判為其他類別樣本的誤判成本值,并將其記為C(i),計算公式如下:
(10)定義樣本屬于類別Ci的權重值,并將其記為w(i),計算公式如下:
(11)定義屬于類別Ci的帶權重值的樣本數(shù),并將其記為Wi,計算公式如下:
Wi=w(i)ni;
(12)定義子集Sj中屬于類別Ci的帶權重值的樣本數(shù),并將其記為Wij,計算公式如下:
Wij=w(i)nij;
為了區(qū)別對待不同誤判的錯誤分類,對不同誤判設定誤判成本值,在計算屬性因子的信息增益時將誤判情況考慮進去,即在計算信息熵和條件熵時,用Wi代替ni,Wij代替nij,即將概率pi、pij更新為:
(13)從葉節(jié)點逐層向上,以最小子樹為基本單位,計算其葉節(jié)點的錯誤率并計算根節(jié)點的錯誤率,若前者大于后者,則剪去該子樹的分支,直至無需剪枝為止;
(14)用測試樣本集合對上述NOSHOW預測模型進行驗證分析,同時生成與NOSHOW相關的屬性因子的量化結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國民航信息網(wǎng)絡股份有限公司,未經(jīng)中國民航信息網(wǎng)絡股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810161720.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 一種低消耗的Apriori方法
- 一種兼顧局部樣本的頻繁項集數(shù)據(jù)挖掘方法
- 一種電網(wǎng)企業(yè)關鍵數(shù)據(jù)分析方法
- 應用深度學習和改進Apriori算法綜合的一次設備風險預測的方法
- 一種基于最短板原則的頻繁項集數(shù)據(jù)挖掘方法
- 一種基于加權Apriori算法的商品分類方法
- 一種基于Spark框架的增量式頻繁項集挖掘方法
- 基于Apriori算法的應用優(yōu)化方法、裝置和智能設備
- 一種基于Apriori算法建立配電負荷線損關聯(lián)分析模型的方法
- 一種基于K-means和Apriori的算法海事大數(shù)據(jù)關聯(lián)分析的方法





