[發明專利]一種基于智能對話的主動式網絡信息挖掘方法在審
| 申請號: | 202211294736.5 | 申請日: | 2022-10-21 |
| 公開(公告)號: | CN115687754A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 黃誠;羅雙春;楊振 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06F16/33;G06F16/332;G06F40/295 |
| 代理公司: | 成都厚為專利代理事務所(普通合伙) 51255 | 代理人: | 王杰 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 對話 主動 網絡 信息 挖掘 方法 | ||
1.一種基于智能對話的主動式網絡信息挖掘方法,其特征在于,包括:
采集社交平臺上目標群組的群聊數據;
對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集,所述網絡信息包括目標實體、預定義的關系、目標實體的屬性;
基于所述第二數據集構建生成網絡信息知識庫;
基于所述第一數據集構建目標人員分類模型;
基于所述第三數據集構建任務型對話系統;
利用所述目標人員分類模型和任務對話系統與目標人員對話得到會話內容;
抽取所述會話內容中的網絡信息,并根據抽取的網絡信息更新網絡信息知識庫。
2.根據權利要求1所述的一種基于智能對話的主動式網絡信息挖掘方法,其特征在于,對所述群聊數據進行標注得到包括人員類型標注數據的第一數據集、包括網絡信息的第二數據集和包括聊天對話數據的第三數據集,包括:
基于所述群聊數據,標注發言人類型得到人員類型標注數據,根據所述人員類型標注數據生成第一數據集;
基于所述群聊數據,標注網絡信息得到第二數據集,所述網絡信息包括目標實體、預定義的關系、目標實體的屬性;
基于所述群聊數據生成多輪聊天對話數據,根據所述聊天對話數據生成第三數據集。
3.根據權利要求1所述的一種基于智能對話的主動式網絡信息挖掘方法,其特征在于,基于所述第二數據集構建生成網絡信息知識庫,包括:
根據所述第二數據集中的目標實體、預定義的關系、目標實體的屬性組成第一三元組信息;
將所述第一三元組信息存入圖數據庫中形成網絡信息知識庫。
4.根據權利要求1所述的一種基于智能對話的主動式網絡信息挖掘方法,其特征在于,基于所述第一數據集構建目標人員分類模型,包括:
對所述第一數據集的文本進行預處理,所述預處理包括去除停用詞、非ASCII字符和標點符號;
構建專業術語字典;
利用分詞工具和所述專業術語字典對預處理后第一數據集的文本進行分詞,得到語料和目標人員類型標簽;
將所述語料和目標人員類型標簽輸入預設的中文詞向量預訓練模型,得到詞向量;
將所述詞向量輸入預設的TextCNN模型進行訓練,得到目標人員分類模型。
5.根據權利要求4所述的一種基于智能對話的主動式網絡信息挖掘方法,其特征在于,基于所述第三數據集構建任務型對話系統,包括:
基于所述第三數據集,標注每句對話的意圖標簽形成第四數據集;
基于所述第四數據集和詞向量,利用BiLSTM模型進行訓練得到意圖識別模塊;
基于所述第三數據集,標注對話任務中的執行動作形成第五數據集;
基于第四數據集和第五數據集設置回答話術模板;
基于所述回答話術模板構建回復模塊;
構建同義詞替換表和基于規則的第一對話策略;
基于所述第四數據集和第五數據集,將所述意圖標簽、目標實體、執行動作嵌入到輸入向量中,利用自注意力機制構建基于深度學習的第二對話策略,所述輸入向量為將所述意圖標簽、目標實體、執行動作文本embedding獲得的向量;
基于所述同義詞替換表、第一對話策略和第二對話策略構建對話策略模塊;
基于所述意圖識別模塊、回復模塊和對話策略模塊生成任務型對話系統。
6.根據權利要求4所述的一種基于智能對話的主動式網絡信息挖掘方法,其特征在于,所述主動式網絡信息挖掘方法還包括:
基于所述詞向量,利用BiLSTM-CRF構建命名實體識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211294736.5/1.html,轉載請聲明來源鉆瓜專利網。





