[發(fā)明專利]基于用戶查詢?nèi)罩镜目瓦\交通渠道查詢模式分類方法在審
| 申請?zhí)枺?/td> | 201711405012.2 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN107908800A | 公開(公告)日: | 2018-04-13 |
| 發(fā)明(設(shè)計)人: | 林友芳;萬懷宇 | 申請(專利權(quán))人: | 北京交通大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紅福盈知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11525 | 代理人: | 崔成哲 |
| 地址: | 100044 北京市海淀區(qū)上園*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 用戶 查詢 日志 客運 交通 渠道 模式 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及交通領(lǐng)域用戶查詢?nèi)罩緮?shù)據(jù)處理及分析技術(shù),尤其是一種能基于用戶查詢?nèi)罩緦瓦\交通渠道查詢模式進(jìn)行分類的方法。
背景技術(shù)
近年來,隨著航空、鐵路、公路等交通領(lǐng)域的快速發(fā)展,交通領(lǐng)域全市場旅客數(shù)量不斷攀升,而交通客票查詢量往往來源于不同的渠道。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們對于出行客票的查詢越來越集中于各種互聯(lián)網(wǎng)渠道上。以機票查詢?yōu)槔壳皣鴥?nèi)的機票訂票渠道主要分為傳統(tǒng)代理訂票(即MCSS,message center switch system)和互聯(lián)網(wǎng)訂票(即IBE,Internet booking engine)兩種。隨著互聯(lián)網(wǎng)和移動智能終端技術(shù)的發(fā)展,用戶通過IBE渠道進(jìn)行機票查詢和預(yù)訂所占的比例越來越高。這雖然給我們分析和采集用戶數(shù)據(jù)帶來了方便,但是同時卻帶來了另一個問題,這些互聯(lián)網(wǎng)查詢渠道中充斥了大量自動程序(爬蟲)帶來的虛假查詢行為。因此,基于用戶查詢?nèi)罩镜目瓦\交通渠道查詢模式分類方法的提出是十分必要的。
發(fā)明內(nèi)容
本發(fā)明的實施提供了一種基于用戶查詢?nèi)罩镜目瓦\交通渠道查詢模式分類方法,以實現(xiàn)對用戶在線查詢數(shù)據(jù)的不同渠道查詢模式進(jìn)行分類的目的。
本發(fā)明提供了如下方案,一種基于用戶查詢?nèi)罩镜目瓦\交通渠道查詢模式分類方法,該方法包括以下步驟:
S1從歷史數(shù)據(jù)庫中解析、提取用戶查詢?nèi)罩緮?shù)據(jù):解析歷史數(shù)據(jù)庫中的原始用戶查詢?nèi)罩緮?shù)據(jù),從原始用戶查詢?nèi)罩緮?shù)據(jù)中提取出對渠道查詢模式分類有意義的字段,該原始用戶查詢數(shù)據(jù)中包括用戶查詢時刻對應(yīng)的日期、用戶查詢時刻對應(yīng)的小時數(shù)值、用戶查詢時刻對應(yīng)的分鐘數(shù)值、用戶查詢渠道、出發(fā)地城市、目的地城市、出發(fā)日期等。
S2多維度分析S1提取出的用戶查詢?nèi)罩緮?shù)據(jù),構(gòu)建不同渠道對不同出行線路的查詢模式特征,包括:
a、查詢量指標(biāo),統(tǒng)計數(shù)據(jù)表明,大部分的查詢量渠道分布為典型的長尾分布,以機票查詢渠道為例,有不到10%的機票查詢渠道占據(jù)了超過90%的機票查詢量。以查詢量指標(biāo)作為一個查詢模式特征可以區(qū)分出部分不活躍的渠道。
b、綜合離散度指標(biāo),正常的查詢行為往往表現(xiàn)為在接近出發(fā)日期或有社會事件發(fā)生的出發(fā)日期查詢量高,熱門或有事件發(fā)生的線路查詢量高,而機器人往往將查詢量均勻的分散在無關(guān)的線路和出發(fā)日期上。綜合離散度指標(biāo)計算公式:
該指標(biāo)表示一個渠道的查詢行為在出發(fā)地&目的地(O&D)、出發(fā)日期的空間中分布的均勻程度,該指標(biāo)越接近1表示渠道查詢行為分布越均勻,越接近扒數(shù)行為。
c、離群度指標(biāo),正常人的查詢行為往往具有一定的穩(wěn)定性,所以我們可以從離群點的角度去分析異常的查詢行為,具體地可以從三個維度分析渠道的離群性,分別為線路維、歷史維、渠道維。以線路維為例,若一個渠道在一天對某條線路的查詢量與對其他線路的平均查詢量相比有較為明顯的異常,那么對這條線路的查詢行為是十分可疑的。
指標(biāo)對象:某渠道在某小時對某O&D的查詢行為。
定義Ci,j,k為第i個渠道、在第j天、對第k條線路的查詢次數(shù)。線路維離群度計算公式:
其中N表示線路總數(shù),該指標(biāo)表示某渠道在某天對某條線路的查詢量與整體樣本平均查詢量的差異程度。該指標(biāo)大于0并且絕對值越大,說明樣本查詢量遠(yuǎn)高于正常水品;該指標(biāo)小于0并且絕對值越大,說明樣本查詢量遠(yuǎn)低于正常水品。
d、行為模式指標(biāo),正常旅客查詢波形符合人類作息習(xí)慣,扒數(shù)機器人查詢波形則是混亂沒有規(guī)律的。
指標(biāo)對象:某渠道對某O&D在一天24小時中的查詢行為。
定義behaviorCurvec,od,b為c渠道對線路od在b小時的查詢量,standardCurvec,od,b為c渠道對線路od在b小時的標(biāo)準(zhǔn)查詢量。
行為模式指標(biāo)值定義如下:
該指標(biāo)表示了樣本過去24小時查詢行為模式與標(biāo)準(zhǔn)正常人查詢行為模式的相似程度,取值范圍[-1,1],該值越接近1,表明查詢行為越接近正常人行為規(guī)律。
e、起飛日期離散度指標(biāo),機器人扒數(shù)行為的查詢量往往在出發(fā)日期上均勻分布,正常人只集中在重點出發(fā)日期上。
指標(biāo)對象:某渠道在某小時對某O&D的查詢行為。
定義μ表示為每個出發(fā)日期的查詢量平均值,Hh表示為第h個出發(fā)日期(leaveDate)的查詢量總數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學(xué),未經(jīng)北京交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711405012.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





