[發明專利]一種基于時空軌跡和社會網絡的用戶屬性預測系統有效
| 申請號: | 201611141121.3 | 申請日: | 2016-12-12 |
| 公開(公告)號: | CN106600053B | 公開(公告)日: | 2020-04-10 |
| 發明(設計)人: | 王平輝;孫飛揚;王迪;管曉宏;陶敬;張巖;曹鵬飛;賈鵬;胡小雨;曹宇;蘭林 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F16/9537;G06K9/62 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 軌跡 社會 網絡 用戶 屬性 預測 系統 | ||
技術領域
本發明屬于數據挖掘技術領域,特別涉及一種基于時空軌跡和社會網絡的用戶屬性預測系統。
背景技術
隨著互聯網技術的應用與發展,互聯網用戶越來越多。互聯網具有虛擬性,用戶在互聯網上的資料并不一定是其真實屬性,為了提高互聯網的安全性,需要確保用戶身份的真實性。
移動通信技術的發展和智能移動設備(如智能手機、平板電腦)的快速普及,使移動設備與用戶之間的聯系越來越密切,而許多移動設備和APP能夠記錄用戶的行動。于是利用用戶行為對用戶屬性做出推斷這一問題吸引了很多研究人員的關注。
這里主要關注移動設備記錄下的用戶地理位置信息。例如,許多用戶喜歡在微信、微博等社交平臺上發布自己的消息;使用移動設備上的購物或團購APP;使用地圖和導航功能;為了能夠隨時使用這些功能,大多數用戶會長時間開啟GPS、WIFI或4G通訊。開發上述APP的第三方供應商以及網絡運營商能夠獲取到用戶的使用記錄,再通過一些方法分析出這些記錄產生的時間和地點。例如,如果一個用戶用手機發布了一條微博,APP可以通過4G基站信息和手機內置的GPS功能獲取當前的地理位置;網絡運營商可以通過多個基站對用戶的地理位置進行定位。將一個用戶的每一條時間地點記錄組成一個序列,就得到了一個用戶的時空軌跡。時空軌跡反映了用戶的行動模式。
目前已經有一些方法通過分析用戶的時空軌跡來推斷用戶屬性,但是這些方法都是基于地理位置的語義信息來做的。例如,一個微博用戶在幾個不同地點發布了微博消息,為了判斷這名用戶的屬性(如性別、職業),傳統方法需要知道微博發布地點的信息(如商場、公司、飯店或游樂園)。顯然,地點的語義信息并不是總能明確獲取的,例如一棟高層建筑的不同樓層可能有不同的功能。這對傳統方法的效果有很大的影響。此外,由于每個用戶在同一個地點出現的目的都是不同的,只憑時空軌跡來推斷用戶屬性必然存在瓶頸,需要加入新的特征來突破。
社會網絡是由用戶的好友關系建立起來的網絡圖,圖中每個節點代表一個用戶,每條邊代表一對好友關系。有研究統計發現,社會網絡中的好友具有“同質性”,即一對好友具有一項或幾項相同屬性的概率很高。但若僅使用社會網絡來推斷用戶屬性,首先需要知道社會網絡中大多數節點的屬性,但由于隱私問題,這在實際應用中是難以獲取的。
發明內容
為了克服上述現有技術的缺點,本發明的目的在于提供一種基于時空軌跡和社會網絡的用戶屬性預測系統,與傳統方法相比,本發明的一項優勢在于輸入的時空軌跡不需要具有詳細語義信息的地理位置數據,因此適用于多種不同類型的數據集;本發明的另一項優勢在于輸入的社會網絡不需要具有用戶的身份信息,因此適用于不同的社會網絡。
為了實現上述目的,本發明采用的技術方案是:
基于時空軌跡和社會網絡的用戶屬性預測系統,包括:
數據處理子系統,包括時空軌跡處理模塊和社會網絡處理模塊。
時空軌跡處理模塊用于將所有用戶的時空軌跡處理成容易進行后續操作的三階張量形式。
具體地,時空軌跡處理模塊中,所需的原始的時空軌跡記錄包括用戶標識,地理位置標示和時間標識,時空軌跡處理模塊建立一個元素全為零的三階張量,其中行數=用戶標識數、列數=地理位置標識數、管數=時間段標識數,即三階張量的每一行代表一個用戶,每一列代表一個地點,每一管代表一個時間段。
所述社會網絡處理模塊用于將所有用戶之間的社交關系處理成容易進行后續操作的鄰接矩陣形式。所需的數據為用戶的社會網絡信息用戶間必定存在某種關系(如好友,關注,點贊等),對這些信息進行提取,建立一個反映用戶間社交關系的鄰接矩陣。
具體地,鄰接矩陣的行數和列數都等于用戶數,用戶ui和用戶uj的關系反映在矩陣的第i行j列中。
特征提取子系統,降低用戶時空軌跡的維度,從用戶的時空軌跡數據中提取出有價值的特征,使提取出的特征適用于現有的分類算法。
具體地,本發明提出了一種非負張量分解(NTF)算法來提取有價值的特征,對時空軌跡張量進行分解,用社會網絡信息進行約束,得到三個二階矩陣,分別代表了每個用戶、每個地理位置和每個時間段的隱含特征。其中本發明最關心用戶隱含特征矩陣,它能反映每個用戶的特征,用于分類器的訓練和預測,同時特征的維度可以根據需要自行設定,滿足高效、準確的要求。
分類預測子系統,利用用戶的隱含特征訓練多種分類器,使用已知屬性的用戶隱含特征訓練多種分類器對用戶,用目標用戶的隱含特征進行預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611141121.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





