[發明專利]一種基于大數據挖掘的虛擬身份關聯分析方法有效
| 申請號: | 201811490064.9 | 申請日: | 2018-12-06 |
| 公開(公告)號: | CN109614420B | 公開(公告)日: | 2020-08-21 |
| 發明(設計)人: | 王國鋒;劉海濱;莊維維;朱榮亞 | 申請(專利權)人: | 南京森根科技股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/215;G06K9/62 |
| 代理公司: | 廣州天河萬研知識產權代理事務所(普通合伙) 44418 | 代理人: | 劉強 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 挖掘 虛擬 身份 關聯 分析 方法 | ||
1.一種基于大數據挖掘的虛擬身份關聯分析方法,其特征在于,包括以下步驟:
S1:電子串號及物理地址數據預處理;分別對無線數據采集終端的電子串號和物理地址的臟數據進行處理;
S2:關聯數據篩選及存儲;將滿足篩選規則的數據存儲于數據庫中;
S3:樣本特征構建及提取;對關聯數據進行屬性分割及結合,構建M個樣本特征,并對特征數據進行降維處理,使樣本變量維度變為N;
S4:類別不平衡問題處理;采用Fisher判別法調整不同類別訓練樣本;
S5:建立及優化電子串號與物理地址關聯模型;根據算法建立模型,得出電子串號與物理地址的匹配度;
所述步驟S2中篩選規則具體步驟為:
S201、將時間差范圍內采集到的電子串號和物理地址數據中的無線數據采集終端經緯度字段進行匹配,若經緯度一致,則將此組電子串號和物理地址作為匹配對,并轉入步驟S202;若不一致,則舍棄;
S202、從預處理后的數據中分別取出匹配對相應的電子串號/物理地址、采集時間、經度和緯度字段,滿足以下條件的匹配對保留作為匹配組并存儲:|d1-d2|dmax且|t1-t2|tmax,其中d1和d2分別為電子串號和物理地址被采集時無線終端的地理位置,t1和t2分別為其對應的采集時間,dmax和tmax分別為距離的閾值和時間的閾值;
所述步驟S3中,采用主成分分析(Principal Component Analysis,PCA)對關聯數據的M個特征屬性進行降維處理,使樣本變量維度變為N;
所述步驟S3中,MN;
所述步驟S4具體包括:
S401、將特征提取后的統計數據樣本分為正例和反例:當明確電子串號與某個物理地址存在匹配關系時,標記為正例;當明確電子串號與某個物理地址不存在匹配關系時,標記為反例;
S402、樣本類別標記后,不同類別的訓練例數目差別較大,采用Fisher判別法對數量較多的類別進行過濾,減少因樣本類別不平衡對分類器造成的負面影響,提高建模時分類的準確率以及模型假設對數據集的擬合度;
所述步驟S5具體包括:
S501、運用Logistic Regression算法對處理后的樣本集建立模型,并得到參數估計值;
S502、根據得到的參數估計值,計算出每一組電子串號和物理地址的匹配度基數值,并將該基數值映射收斂到區間[0,1],得到最終電子串號和物理地址的匹配度。
2.一種用于實現權利要求1所述的基于大數據挖掘的虛擬身份關聯分析方法的系統,其特征在于,包括存儲模塊(1)、判斷模塊(2)、樣本處理模塊(3)、關聯分析模塊(4)以及結果解析模塊(5);
所述存儲模塊(1)用于管理采集的原始電子串號數據和物理地址數據,以及判斷模塊(2)、樣本處理模塊(3)、關聯分析模塊(4)和結果解析模塊(5)中所產生的數據;
所述判斷模塊(2)用于判斷電子串號與物理地址是否符合篩選規則;
所述樣本處理模塊(3)用于構建電子串號和物理地址的多維度特征樣本,并過濾掉部分反類樣例;
所述關聯分析模塊(4)用于基于Logistic Regression算法計算電子串號和物理地址的匹配度;
所述結果解析模塊(5),用于將計算得到的匹配度結果解析并存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京森根科技股份有限公司,未經南京森根科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811490064.9/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





