[發(fā)明專利]基于高斯混合模型聚類的自適應雙權重航空旅客付費選座預測方法在審
| 申請?zhí)枺?/td> | 202110600444.9 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113361758A | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設計)人: | 陳凱;王百城;龍勝春 | 申請(專利權)人: | 浙江工業(yè)大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/02;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 模型 自適應 權重 航空 旅客 付費 預測 方法 | ||
一種基于高斯混合模型聚類的自適應雙權重航空旅客付費選座預測方法,所述方法包括以下步驟:步驟1.使用開源航空旅客數(shù)據(jù)集或者自行建立數(shù)據(jù)集,并對數(shù)據(jù)集進行預處理;步驟2:在訓練集上訓練;步驟3:測試階段,測試數(shù)據(jù)為測試集或采集的數(shù)據(jù)。本發(fā)明使用高斯混合模型聚類提升了數(shù)據(jù)集之間的差異性,從而獲得更多樣的分類器,對于新的旅客用戶,能夠自適應地調(diào)整分類器的權重,提高了在航空旅客付費選座領域的識別準確率。
技術領域
本發(fā)明屬于數(shù)據(jù)挖掘、客戶分類領域,涉及一種基于高斯混合模型聚類的自適應雙權重航空旅客付費選座預測方法。
背景技術
民航業(yè)作為我國經(jīng)濟社會發(fā)展的戰(zhàn)略產(chǎn)業(yè),近年來快速發(fā)展,截至2018年,定期航班國內(nèi)通航230個城市,定期航班通航國家65個,且已不再局限于高收入人群,逐漸成為普通民眾日常出行首選的交通方式。從實踐情況來看,了解不通旅客的需求和偏好,針對不同的旅客群體提供不同的營銷策略無疑是提高航空旅客服務質(zhì)量,增加收入的有效途徑。旅客的喜好反映在旅行時間,艙位選擇,座位選擇等方面。航空付費選座意味著旅客可以預先選擇機艙內(nèi)喜歡的座位并為此服務付費。目標。航空付費選座服務費用作為客票以外的附加費,是市場規(guī)律催生的產(chǎn)物之一。
但是關于航空旅客選座行為的定量研究預測方法較少,可信度較低。因此對航空旅客進行更高效,更科學地識別和分析,準確預測旅客偏好,幫助公司了解旅客資源并提高競爭力,對促進航空公司發(fā)展至關重要。
發(fā)明內(nèi)容
為了克服已有技術的不足,解決相關數(shù)據(jù)集普遍的樣本不平衡問題,同時進一步提升預測精度,本發(fā)明提供一種基于高斯混合模型聚類的自適應雙權重航空旅客付費選座預測方法:采用基于高斯混合模型聚類的數(shù)據(jù)擾動方法,將數(shù)據(jù)集劃分為多個類簇,并在此基礎上訓練隨機森林分類器,從而有效增加了分類器之間的差異性;對于給定的測試樣本,結合測試樣本與各個類簇的相似度以及每個隨機森林分類器對測試樣本的局部適應度,計算每個分類器對測試樣本的權重,然后依據(jù)加權投票策略對集成各個分類器,最終形成預測模型。
本發(fā)明解決其技術問題所采用的技術方案是:
一種基于高斯混合模型聚類的自適應雙權重航空旅客付費選座預測方法,所述方法包括以下步驟:
步驟1.使用開源航空旅客數(shù)據(jù)集或者自行建立數(shù)據(jù)集,并對數(shù)據(jù)集進行預處理,過程如下:
1.1)利用Xgboost算法內(nèi)置特征重要屬性反映特征對模型結果的影響,提取特征重要程度排名前20%的特征,提高模型訓練效率;
1.2)將數(shù)據(jù)集分為訓練集,測試集;
步驟2:訓練階段,即在訓練集上訓練,過程如下:
2.1)使用貝葉斯搜索方法確定隨機森林分類器的最優(yōu)超參數(shù);
2.2)使用高斯混合模型對原始數(shù)據(jù)集進行聚類,并依據(jù)BIC模型選擇理論確定最優(yōu)聚類數(shù)量M;
2.3)在各個類簇上訓練隨機森林分類器;
步驟3:測試階段,測試數(shù)據(jù)為測試集或采集的數(shù)據(jù),過程如下:
3.1)運用高斯混合模型預測測試樣本屬于訓練集每一個類簇的概率,并將其表示為向量其中,γe,j表示測試樣本xe屬于第j個類簇的概率,j=1,…,M,M表示類簇數(shù)量;訓練集樣本屬于每一個類簇的概率,并將其表示為向量其中,表示第t個類簇中第i個樣本點屬于第j個類簇的概率;
3.2)利用歐氏距離計算第t個類簇中第i個樣本點與測試樣本xe的概率分布的相似程度距離越小,概率分布的相似程度越大,其計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業(yè)大學,未經(jīng)浙江工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110600444.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





