[發明專利]面向多社交網絡平臺的機器人檢測方法在審
| 申請號: | 202210546540.4 | 申請日: | 2022-05-20 |
| 公開(公告)號: | CN114881161A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 張旭;劉春陽;張翔宇 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/00 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 史霞 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 社交 網絡 平臺 機器人 檢測 方法 | ||
1.面向多社交網絡平臺的機器人檢測方法,其特征在于,包括:
獲取社交網絡平臺的用戶賬號數據,將賬號ID作為用戶的唯一標識符,進行數據預處理并提取基于用戶身份信息的用戶特征,基于用戶關注數和粉絲數的朋友特征,基于用戶帖文內容的網絡特征、內容特征和情感特征,基于用戶帖文時間的時序特征;
對所有賬號ID的所述用戶特征、朋友特征、網絡特征、內容特征、情感特征、時序特征構建高維的原始矩陣,通過顯著性分析將高維變量降維為低維變量,得到低維的特征矩陣;
選擇部分用戶賬號進行人工打標,并對社交機器人賬號添加標簽,對于沒有標簽的數據集,采用聚類算法實現劃分,對于含有標簽的數據集,采用分類算法實現劃分,識別出正常用戶賬號與機器人賬號。
2.如權利要求1所述的面向多社交網絡平臺的機器人檢測方法,其特征在于,社交網絡平臺包括Twitter、Facebook、微博。
3.如權利要求1所述的面向多社交網絡平臺的機器人檢測方法,其特征在于,用戶賬號數據包括賬號ID、昵稱、簡介、性別、等級、郵政編碼、關注數、粉絲數、帖文內容與時間。
4.如權利要求3所述的面向多社交網絡平臺的機器人檢測方法,其特征在于,
進行數據預處理并提取用戶特征包括:基于昵稱、簡介,分別提取長度特征、數字特征、中英文特征以及特殊符號與單詞特征,基于性別、等級、郵政編碼,分別映射為數字形式,得到多個子維度的特征數字串;
進行數據預處理并提取朋友特征包括:基于關注數、粉絲數,提取關注數與粉絲數比值的粉絲關注比特征,分別映射為數字形式,得到多個子維度的特征數字串;
進行數據預處理并提取網絡特征包括:基于用戶預定數量的帖文內容的“提及”和“話題”,提取平均頻率特征,分別映射為數字形式,得到多個子維度的特征數字串;
進行數據預處理并提取內容特征包括:基于用戶預定數量的帖文內容,進行分詞、詞性識別、詞性詞頻統計,提取平均詞性詞頻特征,分別映射為數字形式,得到多個子維度的特征數字串;
進行數據預處理并提取情感特征包括:基于用戶預定數量的帖文內容,進行分詞、通過情感詞頻統計的情感識別、計算情感得分、判斷情感傾向,提取平均情感傾向特征,分別映射為數字形式,得到多個子維度的特征數字串;
進行數據預處理并提取時序特征包括:基于用戶預定數量的帖文發布時間,提取平均發布的分布和時間間隔特征,分別映射為數字形式,得到多個子維度的特征數字串。
5.如權利要求1所述的面向多社交網絡平臺的機器人檢測方法,其特征在于,顯著性分析具體包括:
將所有賬號ID的用戶特征、朋友特征、網絡特征、內容特征、情感特征、時序特征輸入并構建高維的原始矩陣,原始矩陣的每一列代表一個子維度的特征的變量字段,對每一列進行標準化處理,計算協方差矩陣,求特征值與特征向量,對特征值進行排序,保留前K列組成的特征向量,計算降維后的低維的特征矩陣。
6.如權利要求1所述的面向多社交網絡平臺的機器人檢測方法,其特征在于,聚類算法采用k-means算法,分類算法采用回歸模型。
7.基于跨平臺的社交機器人檢測裝置,其特征在于,包括:
數據提取模塊,其獲取社交網絡平臺的用戶賬號數據;
數據處理模塊,其將賬號ID作為用戶的唯一標識符,進行數據預處理并提取基于用戶身份信息的用戶特征,基于用戶關注數和粉絲數的朋友特征,基于用戶帖文內容的網絡特征、內容特征和情感特征,基于用戶帖文時間的時序特征;
主成分分析模塊,其對所有賬號ID的所述用戶特征、朋友特征、網絡特征、內容特征、情感特征、時序特征構建高維的原始矩陣,通過顯著性分析將高維變量降維為低維變量,得到低維的特征矩陣;
賬號劃分模塊,其對部分人工打標的社交機器人賬號添加標簽,對于沒有標簽的數據集,采用聚類算法實現劃分,對于含有標簽的數據集,采用分類算法實現劃分,識別出正常用戶賬號與機器人賬號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210546540.4/1.html,轉載請聲明來源鉆瓜專利網。





