[發明專利]一種基于智能對話的主動式網絡信息挖掘方法在審
| 申請號: | 202211294736.5 | 申請日: | 2022-10-21 |
| 公開(公告)號: | CN115687754A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 黃誠;羅雙春;楊振 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06F16/33;G06F16/332;G06F40/295 |
| 代理公司: | 成都厚為專利代理事務所(普通合伙) 51255 | 代理人: | 王杰 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 對話 主動 網絡 信息 挖掘 方法 | ||
本發明公開了一種基于智能對話的主動式網絡信息挖掘方法,包括:采集社交平臺上目標群組的群聊數據;對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集,所述網絡信息包括目標實體、預定義的關系、目標實體的屬性;基于所述第二數據集構建生成網絡信息知識庫;基于所述第一數據集構建目標人員分類模型;基于所述第三數據集構建任務型對話系統;利用所述目標人員分類模型和任務對話系統與目標人員對話得到會話內容;抽取所述會話內容中的網絡信息,并根據抽取的網絡信息更新網絡信息知識庫。本發明實現了網絡信息數據收集自動化、自更新、智能化。
技術領域
本發明屬于信息安全技術領域,特別是涉及一種基于智能對話的主動式網絡信息挖掘方法。
背景技術
Chen等人針對整體網絡違法現象,提出一類對違法行為研究的數據分析方法;Radianti 等人,針對在線非法交易市場,對用戶互動特征的分類進行研究,以此分類用戶類型;Kim 等人,針對網絡攻擊行為,通過案例分析方法,研究網絡違法行為的類型分類和損害影響的衡量;Sood等人,針對網絡違法行為商業化,對網絡違法行為類型進行分類和描述;Hutchings 等人,針對在線非法交易市場,通過數據分析方法,對目標人員行為特征分類與研究;Wergberg 等人,針對在線非法交易市場,研究了非法市場供應鏈;Minsu等人,針對在線非法交易市場,通過數據分析、文本分析等方法,挖掘地下產業社交網絡。
當前,針對網絡違法行為研究大多通過事后獲取相關數據,進行內容分析和數據分析,現有研究方法獲取信息基于被動收集,方式單一,僅依托公開應用場景,很難通過在公開的社交平臺上收集獲取潛在的敏感網絡信息,難以挖掘更深層次隱含信息,如售價、產品源、發貨地、目標人員聯系方式等;不具有主動探測和挖掘組織的能力,對組織很難有一個更加清晰全面的認知和畫像分析。
發明內容
本發明的目的在于克服現有技術的不足,提供一種基于智能對話的主動式網絡信息挖掘方法。
本發明的目的是通過以下技術方案來實現的:一種基于智能對話的主動式網絡信息挖掘方法,包括:
采集社交平臺上目標群組的群聊數據;
對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集,所述網絡信息包括目標實體、預定義的關系、目標實體的屬性;
基于所述第二數據集構建生成網絡信息知識庫;
基于所述第一數據集構建目標人員分類模型;
基于所述第三數據集構建任務型對話系統;
利用所述目標人員分類模型和任務對話系統與目標人員對話得到會話內容;
抽取所述會話內容中的網絡信息,并根據抽取的網絡信息更新網絡信息知識庫。
進一步地,對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集,包括:
基于所述群聊數據,標注發言人類型得到人員類型標注數據,根據所述人員類型標注數據生成第一數據集;
基于所述群聊數據,標注網絡信息得到第二數據集,所述網絡信息包括目標實體、預定義的關系、目標實體的屬性;
基于所述群聊數據生成多輪聊天對話數據,根據所述聊天對話數據生成第三數據集。
進一步地,基于所述第二數據集構建生成網絡信息知識庫,包括:
根據所述第二數據集中的目標實體、預定義的關系、目標實體的屬性組成第一三元組信息;
將所述第一三元組信息存入圖數據庫中形成網絡信息知識庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211294736.5/2.html,轉載請聲明來源鉆瓜專利網。





