[發明專利]基于BERT無監督文本分類的輿情分析方法和系統有效
| 申請號: | 202210657446.6 | 申請日: | 2022-06-10 |
| 公開(公告)號: | CN115329069B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 呼大永;孟慶川;董伊然;馬燦;于飛;賈廣恒 | 申請(專利權)人: | 黑龍江省網絡空間研究中心;中國科學院信息工程研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F18/2415 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 150090 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 監督 文本 分類 輿情 分析 方法 系統 | ||
本發明涉及一種基于BERT無監督文本分類的輿情分析方法和系統。該方法的步驟包括:定義類目關鍵詞列表;利用BERT模型和無標注語料擴展類目關鍵詞列表,根據擴展的類目關鍵詞列表構建類目指示詞表;通過類目指示詞表和無標注語料訓練BERT模型,用于預測類目指示詞所屬的類目;利用訓練所得的BERT模型預測輿情文本所屬的類目;根據BERT模型的預測結果進行輿情分析。本發明通過BERT語言模型和大規模無標注語料,能夠得到效果較好的文本分類模型并實現輿情分析,可以用于熱點話題發現、有害信息檢測、自動生成輿情信息分類訓練集等應用場景。
技術領域
本發明屬于信息技術領域,涉及一種基于BERT無監督文本分類的輿情分析方法和系統,尤其適用無標注樣本的分類場景。
背景技術
輿情的應用范疇由政務領域逐步擴展至企業服務、個人服務、行業研究等領域,而輿情分析作為輿情服務的基礎技術,輿情系統作為輿情服務的基礎工具,隨著整個輿情行業的發展也經歷了多輪變革與迭代。
目前,公知的文本分類模型有:樸素貝葉斯、BiLSTM、BERT等。這些文本分類模型都需要大量有類別標記的文本語料,而在實際輿情分析中,難以得到大量標注語料,使得上述文本分類模型的效果不理想。
發明內容
為了得到大規模標注語料,改善分類效果,提高輿情分析能力,本發明提供一種無監督文本分類模型,不需要大規模標注語料,就可以訓練得到效果較好的文本分類模型。
本發明解決其技術問題所采用的技術方案是:
一種基于BERT無監督文本分類的輿情分析方法,該方法利用BERT語言模型從大規模無標注語料中學習類別意義,進而獲得文本分類能力;該方法的步驟包括:
定義類目關鍵詞列表;
利用BERT模型和無標注語料擴展類目關鍵詞列表,根據擴展的類目關鍵詞列表構建類目指示詞表;
通過類目指示詞表和無標注語料訓練BERT模型,用于預測類目指示詞所屬的類目;
利用訓練所得的BERT模型預測輿情文本所屬的類目;
根據BERT模型的預測結果進行輿情分析。
進一步地,所述利用BERT模型和無標注語料擴展類目關鍵詞列表,包括:
遍歷無標注語料,遇到類目關鍵詞時,用BERT模型預測該詞出現位置可能出現的詞語,得到候選詞語列表;
按照詞語出現概率對候選詞語列表中的詞語排序,截取top-N個詞語作為擴展出的關鍵詞;
刪除每個類目關鍵詞列表中的停用詞,以及在多個類目關鍵詞列表中都出現的詞,再根據詞語出現概率排序關鍵詞,最后只保留top-M個詞語。
優選地,所述top-N為top-50,所述top-M為top-100。
進一步地,所述根據擴展的類目關鍵詞列表構建類目指示詞表,包括:
遍歷無標注語料的每個詞語w,用BERT模型預測該詞語位置可能出現的詞語,得到詞語列表;
按照詞語出現概率對詞語列表中的詞語排序,截取top-N個詞語;
如果top-N個詞語中有n個詞語出現在某個類目的類目關鍵詞表中,則將詞語w作為類目指示詞,放入該類目下的類目指示詞表中。
優選地,所述top-N為top-50,所述n為20。
進一步地,所述通過類目指示詞表和無標注語料訓練BERT模型,包括:
將BERT預測輸出的類目指示詞向量輸入到softmax層;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江省網絡空間研究中心;中國科學院信息工程研究所,未經黑龍江省網絡空間研究中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210657446.6/2.html,轉載請聲明來源鉆瓜專利網。





