[發明專利]一種基于時空特性的手機信令數據精細化預處理方法有效
| 申請號: | 202011050867.X | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112312303B | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 張奇;陸振波;劉志遠;張靜芬;張改;萬紫吟;劉娟;楊晨;余冠一 | 申請(專利權)人: | 南京瑞棲智能交通技術產業研究院有限公司 |
| 主分類號: | H04W4/02 | 分類號: | H04W4/02;H04W4/20 |
| 代理公司: | 南京天華專利代理有限責任公司 32218 | 代理人: | 劉暢 |
| 地址: | 210000 江蘇省南京市經*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 特性 手機 數據 精細 預處理 方法 | ||
1.一種基于時空特性的手機信令數據精細化預處理方法,手機信令數據包括:
1)日期date:手機信令數據產生的日期;
2)記錄編號id:唯一標識每一條信令數據;
3)用戶編號msisdn:唯一標識每一位用戶;
4)基站小區編號tac:基站所屬小區的編號;
5)基站扇區編號cell:基站所屬小區內扇區的編號;
6)開始時間begin_time:用戶連接基站的開始時間;
7)結束時間end_time:用戶連接基站的結束時間;
基站信息數據包括:
1)基站小區編號tac:基站所屬小區的編號;
2)基站扇區編號cell:基站所屬小區內扇區的編號;
3)經度lng:基站位置的經度;
4)緯度lat:基站位置的緯度;
其特征在于,所述基于時空特性的手機信令數據精細化預處理方法包括以下步驟:
(1)原始手機信令數據與研究區域基站信息匹配,將基站的經緯度信息轉換成一個可以排序和比較的字符串編碼;將字符串編碼與手機信令數據匹配;
(2)經緯度錯誤基站信息的識別與反饋;所述步驟(2)具體實施過程為:
過程1:按每個用戶msisdn分組,根據開始時間begin_time進行升序排列,初始化i=1;
過程2:分別計算第i條記錄與第i+1條記錄中兩個基站的距離為d1,2,第i+1條記錄與第i+2條記錄中兩個基站的距離為d2,3,第i+1條記錄與第i+3條記錄中兩個基站的距離為d2,4,判斷d1,2,d2,3和d2,4是否全部大于設定的距離閾值Δd1:如果滿足,則進入過程3;反之,i=i+1,返回過程2;
過程3:計算第i條記錄和第i+2條記錄中兩個基站的距離d1,3,判斷d1,3是否小于設定的距離閾值Δd1,且第i條記錄的速度Speedi大于設定的速度閾值Δspeed:如果滿足,則進入過程4;反之,i=i+1,返回過程2;
過程4:將第i條記錄的結束時間end_time賦值為第i+1條記錄的結束時間end_time,輸出第i+1條記錄的基站信息為潛在經緯度錯誤的基站,并刪除第i+1條記錄,i=i+1,返回過程2;
過程5:當遍歷完所有數據記錄后,結束循環;
(3)同位置信令數據合并;所述步驟(3)具體實施過程為:
過程1:按每個用戶msisdn分組,根據開始時間begin_time進行升序排列,計算與上一條的結束時間等于下一條的開始時間的時間間隔,且如果當前一行數據的基站與下一條數據的基站相同,則標記該行flag為1,否則為0;
過程2:當上下兩條基站相同,且與上一條的結束時間等于下一條的開始時間的時間間隔小于6小時,更新上一條的結束時間為下一條時間的開始時間,使上下兩條數據時間連續;
過程3:按用戶和基站分組,根據開始時間begin_time進行升序排列,計算同一用戶同一基站的時間間隔,如果為0,標記flag為1,下一條數據flag為-1;
過程4:篩選出flag為-1和1的數據,根據記錄編號id與原始手機數據合并,計算flag列的累計和,flag列為0的數據為去除相同基站且時間連續的數據;
過程5:篩選出flag列為0的數據,并刪去;
過程6:將同用戶的第i條記錄的結束時間end_time賦值為第i+1條記錄的開始時間start_time,重新計算每一條記錄的逗留時間stay_time,即每一條記錄結束時間end_time減去開始時間begin_time;
(4)漂移數據軌跡降噪處理;所述步驟(4)具體實施過程為:
過程1:按每個用戶msisdn分組,根據開始時間begin_time進行升序排列,初始化i=1,取第i條記錄為當前記錄,并向后提取N條記錄,N取值至少為3;
過程2:對這N+1條信令數據的經緯度坐標取平均值,計算得到N+1條數據記錄經緯度的中心點Oi;
過程3:設定距離閾值Δd2,以上述中心點Oi,半徑為Δd2畫圓,判斷該N+1個點是否均在此圓范圍內,如滿足,則進入過程4;如有任意一點不滿此范圍,則i=i+1,返回過程2;
過程4:生成新記錄:保留這N+1條信令數據中逗留時間stay_time最長的基站信息,開始時間begin_time為第i條數據的開始時間,結束時間end_time為第N+i條記錄的結束時間,重新計算逗留時間stay_time,刪除第N+1條記錄;新生成的記錄作為第i條記錄,i=i+1,返回過程2;
過程5:遍歷全部記錄后,結束循環;
(5)全類型乒乓數據優化處理;所述步驟(5)中,對于同一用戶連續時間且按時間遞增排序的手機信令數據,第i條記錄與第i+n條記錄的位置相同,該兩條記錄的停留時間均大于時間閾值Δtime,且該兩條記錄之間的n-1條記錄總計停留時間均小于時間閾值Δtime,則稱第i至i+n條記錄為全類型乒乓切換數據;利用前綴和與差分的優化算法,識別并去除在多個基站來回切換的乒乓數據;
所述步驟(5)具體實施過程為:
過程1:設定時間閾值Δtime,篩選出逗留時間stay_time大于Δtime的基站;
過程2:按用戶msisdn、基站base分組,計算同一用戶同一基站的時間間隔;
過程3:設置flag字段全部為0;如果時間間隔小于Δtime,flag加一,下一條數據flag減一;
過程4:篩選出flag為-1和1的數據,按記錄編號id與未篩選前的數據進行匹配,計算flag列的累計和,累計和為0的列為去除乒乓數據后的數據;
過程5:篩選出flag列為0的數據,并刪去;
過程6:將同用戶的第i條記錄的結束時間end_time賦值為第i+1條記錄的開始時間start_time,重新計算每一條記錄的逗留時間stay_time,即每一條記錄結束時間end_time減去開始時間begin_time。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京瑞棲智能交通技術產業研究院有限公司,未經南京瑞棲智能交通技術產業研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011050867.X/1.html,轉載請聲明來源鉆瓜專利網。





