[發明專利]基于聚類判別模型的網約車鑒別方法和系統在審
| 申請號: | 201710573249.5 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107301433A | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 冷婷;談煒;石路路;王計斌 | 申請(專利權)人: | 南京華蘇科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q10/02;G06Q50/26 |
| 代理公司: | 江蘇縱聯律師事務所32253 | 代理人: | 戴勇 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 判別 模型 網約車 鑒別方法 系統 | ||
技術領域
本發明屬于網約車管理技術領域,尤其是涉及一種基于聚類判別模型的網約車鑒別方法和系統。
背景技術
在“互聯網+”的背景和市場趨勢的推動下,網約車作為一種新興出行用車方式,迅速成為市場的寵兒,成為智慧出行的重要組成部分。
網約車即網絡預約出租汽車,是一種將乘客、司機與車輛連接起來,乘客通過智能手機應用軟件,預約司機接送服務的出行方式。網約車的出現,滿足社會公眾多樣化出行需求,提升了機動車的利用效率,但是隨著網約車規模的不斷擴大,它帶來的一系列社會監管難題也是不容忽視的。
網約車與傳統的出租車既有區別又有聯系。在車輛顏色與車型上,出租車一般有統一的顏色與標識,網約車則多種多樣。在運營方式上,出租車可以巡游攬客、站點候客和預約接客,而網約車不可以巡游接客,只能通過網絡平臺為預約顧客提供服務。在監管上,出租車一般由出租車公司進行統一管理,而網約車則缺乏一定的監管機制。
初期,網約車是對出租車的補充。隨著網約車專職司機的增多,網約車對傳統出租車行業形成了一定的沖擊,遭到了出租車司機一定程度上的抵制。此外,由于網約車平臺對司機和車輛的審查并不嚴格,市場亂象重生,糾紛、事故等社會問題層出不窮,網約車市場亟需規范管理。
為了管理網約車市場的亂象,《網絡預約出租汽車經營服務管理暫行辦法》于2016年11月1日起施行。其中明確規定了,在運營服務中,駕駛員不得在街上巡游攬客,不應在機場、火車站等設立統一巡游車調度服務站或實行排隊候客的場所攬客。
在網約車營運新規出臺的大背景下,交通局作為公共出行服務管理機構,必須加強對網約車的管理。目前對網約車的管理方式是通過人工巡查的方式來進行,但這樣耗費了大量的人力,因此,交通局迫切需要一種自動化的篩選方式,來幫助他們鎖定嫌疑車輛,實現快速高效的執法。
發明內容
本發明要解決的問題是提供一種以手機的信令數據為基礎,提取出司機的移動特征的基于聚類判別模型的網約車鑒別方法。
為解決上述技術方案,本發明采用的技術方案是該基于聚類判別模型的網約車鑒別方法包括以下步驟:
步驟(1):獲取原始數據,并隨機抽取若干個已知出租車司機用戶作為樣本集M,隨機抽取若干個未知類別的司機用戶作為樣本集N;
步驟(2):獲取所述步驟(1)中樣本集M和樣本集N中司機用戶在一段時間內的信令數據,進行特征提取;
步驟(3):通過對所述步驟(2)提取的特征進行分析,可知網約車司機和出租車司機存在一定的差異性;
步驟(4):建立模型,將所述樣本集M隨機劃分為聚類訓練集P與驗證集Q,將所述樣本集N作為測試集N;
針對訓練集P進行聚類分析,計算最佳聚類數K,剔除所述訓練集P中的異常樣本點,獲得聚類中心點,計算訓練集P中各個有效樣本點到聚類中心點的距離之和,并基于距離增量變化情況得出分類的閾值;
步驟(5):將采集到的未知司機信令數據導入到所述步驟(4)建立的模型中進行判定。
在本發明中,以手機的信令數據為基礎,提取出司機的移動特征,能夠在僅知一類數據標簽的情況下,判別出未知標簽的數據是否歸屬于已知類別,快速便捷;通過步驟(3)的特征分析,可以知曉步驟(2)中的提取的特征是否正確,若是沒有差異性,說明特征提取有問題;通過所述步驟(4)建立了以出租車司機為樣本的聚類模型,這樣,在步驟(5)中,可以快速高效的判別出未知司機用戶的信令數據是否歸屬于已知的出租車類別。
優選的,在所述步驟(4)中,采用驗證集Q對所述步驟(4)中得出的模型進行驗證,采用測試集N進行測試。
采用驗證集Q和測試集N可以提高聚類模型的準確性。
優選的,所述步驟(2)中,提取的特征包括小區切換和駐留時長,其中,特征小區切換包括小區切換數日均值、小區切換數日標準差、忙時小區切換數均值、忙時小區切換數標準差、閑時小區切換數均值和閑時小區切換數標準差;特征駐留時長包括忙時駐留中位數、忙時駐留均值、忙時駐留標準差、閑時駐留中位數、閑時駐留均值和閑時駐留標準差。
優選的,在所述步驟(4)中,對于訓練集P,采用輪廓系數計算最佳聚類數K,輪廓系數是類的密集與分散程度的評價指標,公式如下:
a(i)為i向量到同一簇內其他點不相似程度的平均值,即測量了組內的相似度;
b(i)為i向量到其他簇的平均不相似程度的最小值,即測量了組間的相似度;
s(i)的范圍從-1到1,值越大說明組內內聚度和組間分離度相對較優。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京華蘇科技有限公司,未經南京華蘇科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710573249.5/2.html,轉載請聲明來源鉆瓜專利網。





