[發明專利]一種基于智能對話的主動式網絡信息挖掘方法在審

申請號：	202211294736.5	申請日：	2022-10-21
公開（公告）號：	CN115687754A	公開（公告）日：	2023-02-03
發明（設計）人：	黃誠;羅雙春;楊振	申請（專利權）人：	四川大學
主分類號：	G06F16/9535	分類號：	G06F16/9535;G06F16/9536;G06F16/33;G06F16/332;G06F40/295
代理公司：	成都厚為專利代理事務所(普通合伙) 51255	代理人：	王杰
地址：	610065 四川***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于智能對話主動網絡信息挖掘方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于智能對話的主動式網絡信息挖掘方法，包括：采集社交平臺上目標群組的群聊數據；對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集，所述網絡信息包括目標實體、預定義的關系、目標實體的屬性；基于所述第二數據集構建生成網絡信息知識庫；基于所述第一數據集構建目標人員分類模型；基于所述第三數據集構建任務型對話系統；利用所述目標人員分類模型和任務對話系統與目標人員對話得到會話內容；抽取所述會話內容中的網絡信息，并根據抽取的網絡信息更新網絡信息知識庫。本發明實現了網絡信息數據收集自動化、自更新、智能化。

技術領域

本發明屬于信息安全技術領域，特別是涉及一種基于智能對話的主動式網絡信息挖掘方法。

背景技術

Chen等人針對整體網絡違法現象，提出一類對違法行為研究的數據分析方法；Radianti 等人，針對在線非法交易市場，對用戶互動特征的分類進行研究，以此分類用戶類型；Kim 等人，針對網絡攻擊行為，通過案例分析方法，研究網絡違法行為的類型分類和損害影響的衡量；Sood等人，針對網絡違法行為商業化，對網絡違法行為類型進行分類和描述；Hutchings 等人，針對在線非法交易市場，通過數據分析方法，對目標人員行為特征分類與研究；Wergberg 等人，針對在線非法交易市場，研究了非法市場供應鏈；Minsu等人，針對在線非法交易市場，通過數據分析、文本分析等方法，挖掘地下產業社交網絡。

當前，針對網絡違法行為研究大多通過事后獲取相關數據，進行內容分析和數據分析，現有研究方法獲取信息基于被動收集，方式單一，僅依托公開應用場景，很難通過在公開的社交平臺上收集獲取潛在的敏感網絡信息，難以挖掘更深層次隱含信息，如售價、產品源、發貨地、目標人員聯系方式等；不具有主動探測和挖掘組織的能力，對組織很難有一個更加清晰全面的認知和畫像分析。

發明內容

本發明的目的在于克服現有技術的不足，提供一種基于智能對話的主動式網絡信息挖掘方法。

本發明的目的是通過以下技術方案來實現的：一種基于智能對話的主動式網絡信息挖掘方法，包括：

采集社交平臺上目標群組的群聊數據；

對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集，所述網絡信息包括目標實體、預定義的關系、目標實體的屬性；

基于所述第二數據集構建生成網絡信息知識庫；

基于所述第一數據集構建目標人員分類模型；

基于所述第三數據集構建任務型對話系統；

利用所述目標人員分類模型和任務對話系統與目標人員對話得到會話內容；

抽取所述會話內容中的網絡信息，并根據抽取的網絡信息更新網絡信息知識庫。

進一步地，對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集，包括：

基于所述群聊數據，標注發言人類型得到人員類型標注數據，根據所述人員類型標注數據生成第一數據集；