[發明專利]一種基于圖注意力網絡的社交機器人識別方法有效
| 申請號: | 202010044446.X | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111274491B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 顏成鋼;阮定;孫垚棋;張繼勇;張勇東 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 網絡 社交 機器人 識別 方法 | ||
本發明提供本發明一種基于圖注意力網絡的社交機器人識別方法。本發明方法基于圖注意力網絡,通過對社交網絡上發布的內容進行自然語言處理構建節點特征,各社交賬號之間的轉發、評論關系來構建圖,然后進行分類,從而判斷出該賬號是否為社交機器人。首先社交網絡數據,進行數據集的創建,然后構建圖注意力網絡,通過創建的數據集進行圖注意力網絡的訓練和測試。針對復雜的社交網絡機器人識別問題,本發明方法能夠自動高效的識別社交機器人,減少不法分子的可乘之機,從而限制機器人發布的言論,削弱不良社會輿論影響,有利于維護社會和諧穩定。
技術領域
本發明涉及圖注意力網絡的應用領域,具體涉及基于圖注意力網絡節點分類技術及其實際應用于社交網絡的領域。
背景技術
近年來,隨著社交網絡的發展,個人可以充分地在網絡上發出自己的聲音,但也讓不法分子有了可乘之機,在網上肆意發布不良內容。尤其是在充斥著大量水軍,僵尸粉的微博上,社交機器人可以發布大量的內容從而影響輿論導向,所以需要一個系統能夠識別出社交機器人,控制機器人發布的言論帶來的社會影響。
在計算機科學中,圖是由頂點和邊兩部分組成的一種數據結構。圖G可以通過頂點集合V和它包含的邊E來描述,即:
G=(V,E) (1)
頂點也稱節點,兩個術語是可以互換的。
圖注意力網絡是一種直接作用于圖上的神經網絡。GAT的一個典型作用是節點分類。本質上,圖中每個節點都與一個標簽相關聯,通過圖注意力網絡就能夠預測未標記節點的標簽。
圖注意力網絡采用多頭注意力機制,相較圖卷積神經網絡能夠更準確地對各節點進行分類。而且其注意力機制更適用于擁有不同的度和不同權重的邊的社交網絡,最重要的是這一算法可直接用于歸納學習問題。
而在社交網絡中,社交機器人所發送內容大體相同,可以利用自然語言處理獲取每個社交機器人的特征,然后通過轉發、評論關系構建圖,獲取這樣的數據集后,就可以利用圖注意力網絡對節點進行分類。
發明內容
針對現有技術存在的不足,本發明提供本發明一種基于圖注意力網絡的社交機器人識別方法。本發明方法基于圖注意力網絡,通過對社交網絡上發布的內容進行自然語言處理構建節點特征,各社交賬號之間的轉發、評論關系來構建圖,然后進行分類,從而判斷出該賬號是否為社交機器人。
一種基于圖注意力網絡的社交機器人識別方法,步驟如下:
步驟(1)、搜集社交網絡數據。
人工搜集一段時間內社交平臺上部分賬號發布的內容,以及各賬號之間的評論關系。對社交平臺上某一賬號發布的內容進行記錄,搜集該條內容下的評論賬號發布的實質性評論內容以及評論的評論。同時根據賬號所發布的內容及評論關系判斷該賬號是否為機器人。
步驟(2)、創建數據集。
對所有搜集到的賬號發布的實質性內容進行自然語言處理獲取特征,各個賬號作為圖的頂點,賬號間的評論關系形成圖的邊,并對每個賬號都注明是否為機器人,由此形成數據集。將數據集分為兩個部分,第一部分包括賬號的ID,特征和類別,第二部分為各賬號之間的評論關系。其中訓練集,驗證集和測試集所占比例約為6:2:2。
步驟(3)、構建圖注意力網絡
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010044446.X/2.html,轉載請聲明來源鉆瓜專利網。





