[發明專利]社交網絡中基于多視圖融合的用戶審計方法有效
| 申請號: | 202011165375.5 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112365356B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 楊曉暉;梁笑 | 申請(專利權)人: | 河北大學 |
| 主分類號: | G06Q50/00 | 分類號: | G06Q50/00;G06V10/74;G06V10/774;G06V10/764;G06V10/80;G06K9/62 |
| 代理公司: | 石家莊國域專利商標事務所有限公司 13112 | 代理人: | 胡素梅 |
| 地址: | 071002 *** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 社交 網絡 基于 視圖 融合 用戶 審計 方法 | ||
1.一種社交網絡中基于多視圖融合的用戶審計方法,其特征是,包括三個階段:
第一階段:特征提取;從用戶的用戶行為、社交關系和文章內容這三個視圖中提取13個特征,所提取的13個特征分別為:發文間隔標準差、轉發比率、陽光信用、粉絲比率、雙向連接率、粉絲平均雙向連接率、集群系數、基于社區的雙向連接率、基于社區的集群系數、平均標簽數、內容標簽相似度、平均URL數和單一提及率;其中,基于用戶行為的特征包括發文間隔標準差、轉發比率和陽光信用,基于社交關系的特征包括粉絲比率、雙向連接率、粉絲平均雙向連接率、集群系數、基于社區的雙向連接率和基于社區的集群系數,基于文章內容的特征包括平均標簽數、內容標簽相似度、平均URL數和單一提及率;所提取的13個特征構成一個數據集X,數據集X是一個行數為n、列數為13的矩陣;行數n對應用戶數,列數13對應13個特征;
第二階段:多視圖融合;根據數據集X針對每一視圖分別訓練一個基分類器,利用線性加權函數將來自每一視圖的分類結果進行線性加權融合,并通過最小化近似誤差求得最優融合系數,進而得到最終的分類結果;
第三階段:利用最終的分類結果對用戶進行審計,審計前首先要提取用戶的13個特征;
粉絲比率由如下公式計算:
其中,UF代表用戶u的粉絲集合,UL代表用戶u關注的人的集合;
粉絲平均雙向連接率由如下公式計算:
其中,UF代表用戶u的粉絲集合,uv代表用戶u的粉絲集合中的一個用戶,R(uv)表示用戶uv在觀測時間內轉發文章的數量;
基于社區的雙向連接率由如下公式計算:
其中,m為用戶所在社區的個數,|Ci|表示第i個社區中的用戶總數,BR(Ci(j))表示用戶所在的第i個社區的第j個成員的雙向連接率;
基于社區的集群系數由如下公式計算:
其中,m為用戶所在社區的個數,CCi為第i個社區的集群系數;
陽光信用由整數1-5來表示,整數1-5分別對應陽光信用等級由低到高的五個級別;
內容標簽相似度的計算過程如下:
a、提取每篇文章中的主題標簽t1,t2,...,tn,n為標簽數;
b、利用概率主題模型LDA計算每篇文章中排名前三的3個主題詞w1、w2、w3及其對應的概率值p1、p2、p3;
c、計算每篇文章的內容標簽相似程度其中sij表示第i個主題詞與第j個標簽在內容上的相似度;sij由函數包synonyms計算得到;
d、依據如下公式計算內容標簽相似度
其中,N(u)表示在觀測時間段內用戶發布文章的總數;
最優融合系數θ的計算方法如下:
a、定義其中表示第i個用戶來自第v個視圖的概率型預測的值;是通過相應基分類器來獲得的;
b、定義基于融合的函數,以獲取最終的分類結果:
c、定義帶有L2正則化的最小二乘損失函數,其中為第i個用戶的真實值,λ為正則化參數;
d、最優融合系數θ的求解轉化為
argθminL(θ)
令P=[p1,p2,...,pn]∈Rn×3,則最優融合系數θ的求解轉化為
e、用正則方程法對步驟d中的θ求解,得到最優融合系數θ=(PTP+λI)-1PTY0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北大學,未經河北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011165375.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示面板和顯示設備
- 下一篇:一種數據安全下載方法和系統





