[發(fā)明專利]一種基于數(shù)據(jù)流的異常用戶檢索系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811136056.4 | 申請日: | 2018-09-28 |
| 公開(公告)號: | CN109299365B | 公開(公告)日: | 2019-08-13 |
| 發(fā)明(設(shè)計)人: | 王平輝;齊逸巖;賈鵬;孫飛揚;王翔宇;曾菊香;許諾;蘭林;管曉宏;陶敬;韓婷 | 申請(專利權(quán))人: | 西安交通大學(xué)深圳研究院 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215 | 代理人: | 段俊濤 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 異常用戶 數(shù)據(jù)流 可用 檢索系統(tǒng) 集合 數(shù)據(jù)流采樣 動態(tài)采樣 好友關(guān)系 流量網(wǎng)絡(luò) 社交網(wǎng)絡(luò) 條件過濾 通話網(wǎng)絡(luò) 相似程度 相似用戶 用戶興趣 交集 算法 過濾 檢索 基數(shù) 查詢 反饋 監(jiān)控 | ||
1.一種基于數(shù)據(jù)流的異常用戶檢索系統(tǒng),包括:
數(shù)據(jù)流采樣子系統(tǒng),對輸入數(shù)據(jù)流中的“用戶--興趣”二元組進(jìn)行動態(tài)采樣,以數(shù)組的形式進(jìn)行存儲;
相似用戶檢索子系統(tǒng),當(dāng)使用者提供某一或某些種子用戶后,在上述采樣的數(shù)組中找出與之興趣集合相似的用戶;
異常用戶過濾子系統(tǒng),利用上述采樣的數(shù)組,通過對相似用戶進(jìn)行統(tǒng)計分析,過濾出其中的異常用戶;
其特征在于,所述數(shù)據(jù)流采樣子系統(tǒng)應(yīng)用SimCard算法對輸入數(shù)據(jù)流Γ中“用戶-興趣”二元組(u,w)進(jìn)行采樣,并以用戶id建立索引,其中u表示用戶,w表示用戶u的興趣,所述SimCard算法中,將采樣數(shù)組定義為{Su}u∈U,其中U為全體用戶的集合,對于每一個用戶u∈U,其對應(yīng)的采樣數(shù)組大小為|Su|=k,元素su,i∈Su,i=1,2,...,k,為取值在0到1之間的實數(shù),并初始化su,i=1;
定義一個哈希函數(shù):H,將二元組(u,w)中的w隨機映射到(0,1)區(qū)間,該哈希函數(shù)映射出的值滿足均勻分布性質(zhì),所述數(shù)據(jù)流采樣子系統(tǒng)在二元組(u,w)到來時,令其哈希值hw=H(w),并通過該哈希值計算其在采樣數(shù)組中的位置和打分rw=hwk-iw+1,其中為向下取整符號,最后根據(jù)其打分值更新采樣數(shù)組的相應(yīng)位置,其中令
所述異常用戶過濾子系統(tǒng)根據(jù)檢索出的相似用戶的集合,利用用戶興趣集合基數(shù)Cu=|{w|(u,w)∈Γ}|及該用戶與種子用戶v的興趣集合交集大小Cu,v=|{w|(u,w)∈Γ}∩{w|(v,w)∈Γ}|作為統(tǒng)計量,通過采樣數(shù)組{Su}u∈U對Cu和Cu,v進(jìn)行準(zhǔn)確估計,并采用閾值過濾的方法,輸出其中與種子用戶相似的異常用戶,過程如下:
(1)興趣集合的基數(shù);系統(tǒng)利用采樣數(shù)組Su來估計用戶u的基數(shù):其中ku為采樣數(shù)組Su中元素值為1的位置的個數(shù);
(2)與種子用戶興趣集合的相似度;系統(tǒng)利用采樣數(shù)組和來估計用戶u與種子用戶v的興趣集合的相似度:其中若
(3)與種子用戶集合的交集大??;系統(tǒng)利用和來估計用戶u與種子用戶v的興趣集合交集的大小:
為達(dá)到更加精確的估計效果,采用極大似然估計的方法,在和的基礎(chǔ)上得到更加精確的估計值和令則其中為漢森矩陣,為梯度向量;
最后,系統(tǒng)根據(jù)估算出的統(tǒng)計特征對相似用戶進(jìn)行排序,最終得到輸出的相似異常用戶集合;
其中采樣數(shù)組中的元素滿足如下條件:
(1)如果su,i≠1,表明當(dāng)前位置i已有采樣元素,令
(2)如果su,i=1,表明當(dāng)前位置i沒有采樣元素,需要用另一個非空位置j的元素來補全,初始化l←0,令若su,j=1,令l←l+1,若su,j≠1,令其中←表示賦值操作。
2.根據(jù)權(quán)利要求1所述基于數(shù)據(jù)流的異常用戶檢索系統(tǒng),其特征在于,所述相似用戶檢索子系統(tǒng)在使用者提供種子用戶v后,利用采用數(shù)組{Su}u∈U,檢索出與其相似的用戶集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué)深圳研究院,未經(jīng)西安交通大學(xué)深圳研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811136056.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種數(shù)據(jù)流類型識別模型更新方法及相關(guān)設(shè)備





