[發明專利]一種輿情信息中敏感信息的智能挖掘系統有效
| 申請號: | 202010194818.7 | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN111414520B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 李惠柯;賀成龍;湯世松;高峰;劉蟄;孟令伍 | 申請(專利權)人: | 南京萊斯網信技術研究院有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/951;G06F16/9536;G06N7/00 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210014 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輿情 信息 敏感 智能 挖掘 系統 | ||
1.一種輿情信息中敏感信息的智能挖掘系統,其特征在于,所述系統包括:
輿情信息預處理模塊,用于濾除抓取的輿情信息中的雜質信息,獲得已過濾輿情信息,所述雜質信息包括低俗信息、廣告信息、歷史信息、鏈接符號以及表情符號內容;
敏感信息類別標注模塊,用于接收所述已過濾輿情信息,記錄所述已過濾輿情信息的人工標注信息,獲得已標注輿情信息并存入后臺數據庫,用于后續分類模型的增量訓練,所述人工標注信息包括類別信息,所述類別信息包括投訴維權、涉法涉訴、安全生產、經濟金融、作風建設、意識形態、自然災害、拆遷征地以及食品醫藥衛生;
敏感信息識別模塊,用于根據所述已標注輿情信息對bert模型進行微調,在微調過程中,對模型的參數進行調試,直到獲得在測試數據集上較好的研判效果,通過所述微調,訓練獲得敏感信息分類模型,用于線上系統實時數據的敏感研判;
輿情信息敏感智能挖掘模塊,用于根據所述敏感信息分類模型實時智能研判輿情信息是否敏感,并輸出挖掘結果;
敏感信息可視化模塊,用于將所述輿情信息與挖掘結果以可視化的形式展示在信息展示界面;
基于所述一種輿情信息中敏感信息的智能挖掘系統,一種輿情信息中敏感信息的智能挖掘方法,應用于所述系統,所述方法包括:
步驟101,海量輿情數據預處理,利用貝葉斯模型進行廣告信息和低俗信息的過濾,基本歷史關鍵詞進行歷史信息的過濾;
步驟102,基于bert模型的敏感信息增量訓練,利用谷歌開源的bert預訓練模型以及標準的敏感信息數據進行分類模型的訓練和更新,包括:
將用戶歷史研判信息文本以及標簽作為訓練樣本,輸入bert模型中,修改學習率,批量處理訓練參數,利用GPU對模型進行微調訓練;訓練數據和驗證數據比例為4:1;利用word2vec技術將訓練數據轉化為向量,并作為輸入數據喂給所述bert模型,數據標注標簽作為輸出,采用隨機梯度下降算法作為優化算法進行模型的訓練,對參數進行多次設置并訓練,根據驗證集驗證效果選擇最好的訓練模型,所述參數包括batchsize和epochs;
步驟103,敏感信息的可視化,根據訓練好的敏感信息智能挖掘方法,對抓取的互聯網輿情數據進行自動挖掘并于信息展示界面顯示,顯示模塊包含信息篩選單元和信息顯示單元,所述信息篩選單元用于篩選信息的敏感程度、媒體分類以及網站類別信息;所述信息顯示單元用于根據篩選條件顯示符合條件的敏感信息,顯示內容包含敏感信息類別,涉及的敏感關鍵詞以及敏感信息的發布時間。
2.根據權利要求1所述的一種輿情信息中敏感信息的智能挖掘系統,其特征在于,所述輿情信息預處理模塊包括第一過濾單元、第二過濾單元和第三過濾單元,通過所述第一過濾單元、第二過濾單元和第三過濾單元濾除所述雜質信息,獲得已過濾輿情信息;
通過所述第一過濾單元對輿情信息中的低俗信息和廣告信息進行濾除;
通過所述第二過濾單元對輿情信息中的歷史信息進行濾除;
通過所述第三過濾單元對輿情信息中的鏈接符號和表情符號進行濾除。
3.根據權利要求2所述的一種輿情信息中敏感信息的智能挖掘系統,其特征在于,所述第一過濾單元為基于樸素貝葉斯模型的低俗信息和廣告信息的過濾算法:
所述基于樸素貝葉斯模型的低俗信息和廣告的過濾算法以貝葉斯定理為基礎,計算待分類項屬于每一個可能類別的概率,根據最大概率的類別,確認待分類項的分類;
根據樸素貝葉斯算法,即公式(1),對所述雜質信息中的低俗信息和廣告信息進行識別:
(1)
濾除包含低俗信息或廣告信息的輿情信息。
4.根據權利要求2所述的一種輿情信息中敏感信息的智能挖掘系統,其特征在于,所述第二過濾單元為基于歷史信息關鍵詞的歷史信息過濾算法:
所述基于歷史信息關鍵詞的歷史信息過濾算法,包括:根據歷史著名人物及事件關鍵詞,通過關鍵詞匹配方式對所述雜質信息中的歷史信息進行識別,所述關鍵詞配對方式即通過搜集歷史人物庫和重大歷史事件關鍵詞形成關鍵詞庫后,通過匹配所述關鍵詞庫中的相關歷史信息濾除包含歷史信息的輿情信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京萊斯網信技術研究院有限公司,未經南京萊斯網信技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010194818.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





