[發明專利]一種網絡文本輿情分類的方法及系統有效
| 申請號: | 201611260608.3 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN107045524B | 公開(公告)日: | 2019-12-27 |
| 發明(設計)人: | 胥桂仙 | 申請(專利權)人: | 中央民族大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 11309 北京億騰知識產權代理事務所(普通合伙) | 代理人: | 陳霽 |
| 地址: | 100081 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 文本 輿情 分類 方法 系統 | ||
本發明涉及一種網絡文本輿情分類的方法及系統,該方法包括以下步驟:構建敏感詞詞表;將敏感詞詞表分類成多個敏感類別,每個敏感類別包含多個關鍵詞;通過第一相似度算法將多個關鍵詞與網絡文本進行匹配,根據匹配結果對網絡文本進行輿情分類。該系統包括:處理模塊和匹配模塊。本發明通過對文本處理獲取階段時間內人們關注的熱點信息;利用敏感詞詞庫對網絡文本實現了自動化分類工作,適用于網絡輿情監測、敏感信息過濾、重大新聞事件追蹤等應用,可以為決策層全面掌握輿情動態提供分析依據,提供服務并助于相關信息技術工作。
技術領域
本發明涉及語言類信息處理領域,具體涉及一種網絡文本輿情分類的方法及系統。
背景技術
網絡輿情是指網民通過互聯網對政府管理和社會生活中的種種現象,問題表達政治信念,態度,意見和情緒的總和,跟現實中的輿論相比較,網絡輿情傳播更快,范圍更大等特點。如何提取有效的藏文信息以及開展藏文輿情分析工作,是非常值得研究的課題。
了解社會動態和發展趨勢,更快更全面的抓住輿情動向,從而進行正確的引導輿論和宣傳。對藏文網絡輿情的分析,可以得到輿情信息的時間和空間分布,通過對熱點深層次的追蹤,可以了解到輿情的源頭以及動向,對政府部門應對網絡突發的公共事件具有推動作用。
本發明提供的一種網絡文本輿情分類的方法及系統,在關于輿情處理技術部分,首先采集了敏感詞庫,通過敏感詞庫可以對網絡文本進行輿情詞追蹤。對輿情詞庫進行類別分類后,利用這個詞庫對網絡文本進行輿情分類,通過對藏文輿情詞追蹤以及輿情相關技術處理結果有較高的準確率。
本發明將有助于藏文文本相關信息技術工作。通過輿情詞作為文本處理的特征來獲取階段時間內人們關注的熱點信息。利用輿情詞庫對網絡文本實現了自動化分類工作,適用于網絡輿情監測、敏感信息過濾、重大新聞事件追蹤等應用,可以為決策層全面掌握輿情動態提供分析依據,為相關部門提供服務。
發明內容
本發明的目的是解決現階段藏文文本相關信息技術工作中的缺點,本發明通過輿情詞作為文本處理的特征來獲取階段時間內人們關注的熱點信息。利用輿情詞庫對網絡文本實現了自動化分類工作,適用于網絡輿情監測、敏感信息過濾、重大新聞事件追蹤等應用,可以為決策層全面掌握輿情動態提供分析依據,為相關部門提供服務。
為實現上述目的,一方面,本發明提供了一種網絡文本輿情分類的方法,該方法包括以下步驟:構建敏感詞詞表;將敏感詞詞表分類成至少一個敏感類別,每個敏感類別包含至少一個關鍵詞;將至少一個關鍵詞與網絡文本進行匹配,獲得匹配結果,根據第一相似度算法及匹配結果對網絡文本進行輿情分類。
優選地,根據網絡詞匯構建敏感詞詞表的步驟之后還包括以下步驟:對網絡文本進行分詞和去停用詞處理,獲得第一網絡文本;根據敏感詞詞表獲得第一網絡文本中的敏感詞;根據詞權重計算算法確定敏感詞中的熱度敏感詞;對熱度敏感詞和第一網絡文本進行第二相似度算法計算,并根據計算結果對第一網絡文本進行輿情分類。
詞權重計算算法包括以下步驟:對敏感詞詞表中的詞匯所在的文本進行去分詞和去停用詞處理,將文本進行文本向量化處理獲得待計算權重的詞匯;設置Temp表,通過權重計算公式獲得多個待計算權重的詞匯的權重值,將待計算權重的詞匯的權重值所對應的敏感詞儲存于所述Temp表中,敏感詞詞表與網絡文本集進行匹配,匹配出的詞存儲Temp表中。
權重計算公式如下所示:
weight(ti)=Title_(ti)*(1+a)+Content_tf(ti)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中央民族大學,未經中央民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611260608.3/2.html,轉載請聲明來源鉆瓜專利網。





