[發明專利]一種數據處理方法及裝置有效
| 申請號: | 201710501629.8 | 申請日: | 2017-06-27 |
| 公開(公告)號: | CN109145225B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 羅凈 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/29 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
本申請公開了一種數據處理方法及裝置,包括:從設備的定位數據中篩選出空間有效的定位數據;利用篩選出的空間有效的定位數據分析設備間的活動相似度。通過本發明提供的技術方案,一方面對海量的定位數據的離線處理,得到的空間有效數據的數據量得到了很好的收斂,另一方面,利用篩選后的收斂后的空間有效的數據進行后續實時分析,提高了實時分析的數據處理效率,而且這些收斂后的定位數據是空間有效的定位數據,也保障了后續實時分析的準確度。
技術領域
本申請涉及移動互聯網技術,尤指一種數據處理方法及裝置。
背景技術
在移動互聯網時代,有大量的設備能夠持續不間斷的產生位置數據。實際應用中,雖然活動中的設備通常能夠不間斷的產生位置數據,但是,每個設備產生位置數據的頻率不同,位置精度也會不同,如何能在如此海量的稀疏的位置數據中快速獲知設備(采用不同的號碼標識)之間的活動相似度,以推測哪些設備的使用者是同一用戶。
由于不同設備會在不同的時間、位置產生位置數據,要基于這樣的位置數據來計算兩個設備的活動相似度,通常是直接對兩個設備在時間與空間兩個維度上同時求交集,其交集數量越高,則活動相似度越高,圖1為相關技術中通過在時間與空間兩個維度上求交集以獲取設備的活動相似度的數據處理過程示意圖,如圖1所示,橫軸表示時間,縱軸標識空間,在時間和空間表示的二維圖區域描述一個時空范圍,圖1中的各個小圓點表示某個設備產生的一個時空數據。這里以標識①作為目標設備,描述通過時空求交的方式找出與標識①的設備(下文稱為設備①)最相似的設備。
如圖1所示,僅以設備①、設備②、設備③、設備④和設備⑤為例,對于設備①,以該設備產生的每一條數據的時間、空間為中心,分別以時間窗口為ΔT、空間窗口為ΔS的二維矩形窗口與其它時空信息求交,如1圖中一共有11個矩形窗口分別表示設備①的11個時空信息基于時長ΔT和空長ΔS擴展后的矩形窗口,被這些矩形窗口覆蓋的其它設備數據點表示與設備①在時空上相交。最終結果可以看出,其中,設備②與設備①一共相交了3次,設備③與設備①一共相交了2次,設備④與設備①一共相交了4次,號碼⑤與設備①一共相交了9次。相比之下,設備⑤與設備①的活動相似度最高,其次最有可能是設備④,依次根據覆蓋數從高到低排序。
從相關技術提供的數據處理技術方案可見,實際上只有在數據精度足夠高以及數據量不是特別大的情況下,現有的數據處理方法才能較好的應用起來。對于時間粗糙和經度信息精度較低的設備的定位數據,存在以下問題:
一方面,在時間維度上,需要將目標設備的每一條數據的時間與其它所有設備的數據的時間進行交集匹配。由于設備的定位數據的產生時間很稀疏,一個設備可能需要數分鐘至數小時才會更新一次位置信息,為了確保真正活動相似的設備能夠在時間上有交集,需要把時間窗口調整得足夠大,如30分鐘。另一方面,在空間維度上,需要將目標設備的每一條數據的位置與其它所有設備的數據的位置進行交集匹配。由于位置產生的精度存在不一致,為了確保真正活動相似的設備能夠在空間上有交集,需要把空間窗口調整得足夠大,如1000米。
而時間窗口的擴大和空間窗口的擴大都會導致得到非常多的噪聲數據,比如:時間窗口擴大時,會將更多的碰巧該時間窗口經過同一位置的設備也涵蓋進來,如某個區域,10分鐘內有n個不相關的設備經過,20分鐘可能就有2n個不相關的設備經過;再如:空間窗口擴大時,同樣也會將更多的設備涵蓋進來,如1平方千米有100個不相關的設備,而4平方千米就可能有400個不相關的設備。而這些被涵蓋進來的不相關設備都是噪聲。從而使得產生的中間數據量極大,數據處理效率十分低下,而且機器消耗驚人,在需要快速查找與某個設備的活動相似的設備時,采用現有技術的數據處理方法是根本無法實現的。
發明內容
為了解決上述技術問題,本申請提供了一種數據處理方法及裝置,能夠提高基于大數據的數據處理效率,實現基于活動相似的快速設備查找。
為了達到本申請目的,本申請提供一種數據處理方法,包括:
從設備的定位數據中篩選出空間有效的定位數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710501629.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:社交網絡事件時序關系分析方法
- 下一篇:內容推送方法和裝置





