[發明專利]基于BERT無監督文本分類的輿情分析方法和系統有效
| 申請號: | 202210657446.6 | 申請日: | 2022-06-10 |
| 公開(公告)號: | CN115329069B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 呼大永;孟慶川;董伊然;馬燦;于飛;賈廣恒 | 申請(專利權)人: | 黑龍江省網絡空間研究中心;中國科學院信息工程研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F18/2415 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 150090 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 監督 文本 分類 輿情 分析 方法 系統 | ||
1.一種基于BERT無監督文本分類的輿情分析方法,其特征在于,包括以下步驟:
定義類目關鍵詞列表;
利用BERT模型和無標注語料擴展類目關鍵詞列表,根據擴展的類目關鍵詞列表構建類目指示詞表;
通過類目指示詞表和無標注語料訓練BERT模型,用于預測類目指示詞所屬的類目;
利用訓練所得的BERT模型預測輿情文本所屬的類目;
根據BERT模型的預測結果進行輿情分析。
2.根據權利要求1所述的方法,其特征在于,所述利用BERT模型和無標注語料擴展類目關鍵詞列表,包括:
遍歷無標注語料,遇到類目關鍵詞時,用BERT模型預測該詞出現位置可能出現的詞語,得到候選詞語列表;
按照詞語出現概率對候選詞語列表中的詞語排序,截取top-N個詞語作為擴展出的關鍵詞;
刪除每個類目關鍵詞列表中的停用詞,以及在多個類目關鍵詞列表中都出現的詞,再根據詞語出現概率排序關鍵詞,最后只保留top-M個詞語。
3.根據權利要求2所述的方法,其特征在于,所述top-N為top-50,所述top-M為top-100。
4.根據權利要求1所述的方法,其特征在于,所述根據擴展的類目關鍵詞列表構建類目指示詞表,包括:
遍歷無標注語料的每個詞語w,用BERT模型預測該詞語位置可能出現的詞語,得到詞語列表;
按照詞語出現概率對詞語列表中的詞語排序,截取top-N個詞語;
如果top-N個詞語中有n個詞語出現在某個類目的類目關鍵詞表中,則將詞語w作為類目指示詞,放入該類目下的類目指示詞表中。
5.根據權利要求4所述的方法,其特征在于,所述top-N為top-50,所述n為20。
6.根據權利要求1所述的方法,其特征在于,所述通過類目指示詞表和無標注語料訓練BERT模型,包括:
將BERT預測輸出的類目指示詞向量輸入到softmax層;
Softmax層輸出類目指示詞所屬類目的概率分布,預測類目指示詞所屬類目的概率表達式為:
P(ci|w)=softmax(Wh+b)
其中,ci表示類目i,w為類目指示詞,W為softmax層權重,h為BERT預測的類目指示詞向量,b為softmax層偏置;
采用交叉熵作為損失函數,訓練BERT模型。
7.根據權利要求1所述的方法,其特征在于,所述根據BERT模型的預測結果進行輿情分析,包括:
統計各類目下文本數量和關鍵詞,如果一段時間內某個類目下的文本數量快速增長,則該類目為熱點類目,該類目下的高頻關鍵詞為熱點詞,從而達到動態發現熱點話題的目的。
8.一種基于BERT無監督文本分類的輿情分析系統,其特征在于,包括:
類目關鍵詞列表擴展模塊,用于定義類目關鍵詞列表,利用BERT模型和無標注語料擴展類目關鍵詞列表;
類目指示詞表構建模塊,用于根據擴展的類目關鍵詞列表構建類目指示詞表;
BERT模型訓練模塊,用于通過類目指示詞表和無標注語料訓練BERT模型,用于預測類目指示詞所屬的類目;
輿情分析模塊,用于利用訓練所得的BERT模型預測輿情文本所屬的類目,根據BERT模型的預測結果進行輿情分析。
9.一種電子裝置,其特征在于,包括存儲器和處理器,所述存儲器存儲計算機程序,所述計算機程序被配置為由所述處理器執行,所述計算機程序包括用于執行權利要求1~7中任一項所述方法的指令。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲計算機程序,所述計算機程序被計算機執行時,實現權利要求1~7中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江省網絡空間研究中心;中國科學院信息工程研究所,未經黑龍江省網絡空間研究中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210657446.6/1.html,轉載請聲明來源鉆瓜專利網。





