[發明專利]訓練樣本生成、文本數據、輿情事件分類方法及相關設備有效
| 申請號: | 201811278481.7 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109299271B | 公開(公告)日: | 2022-04-05 |
| 發明(設計)人: | 袁愷村 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9535;G06F40/289;G06F40/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 樣本 生成 文本 數據 輿情 事件 分類 方法 相關 設備 | ||
本申請公開了訓練樣本生成、文本數據、輿情事件分類方法及相關設備,在本申請實施例提供的訓練樣本生成方法中,首先對文本數據進行聚類處理,因為文本數據被聚類,當找到一個目標類別對應的聚類結果后,只需要在其對應的聚類結果中去選擇符合目標類別條件的文本數據然后進行類別標注,就可以得到這個目標類別的訓練樣本,而不用再去分析其他聚類中的文本數據是否存在符合目標類別條件的情況。因此,極大的縮小了文本數據的選擇范圍,提高了標注的效率和樣本的準確性,縮短了標注文本數據的時間。同時,提升了文本數據分類和輿情事件分類過程的效率和準確性。
技術領域
本申請涉及互聯網技術領域,更具體地說,涉及一種訓練樣本生成、文本數據、輿情事件分類方法及相關設備。
背景技術
近幾年來,隨著互聯網的快速發展,網絡媒體已經成為一種新的信息傳播形式。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論。如果不對輿論內容進行有效的監控和管理很可能引發負面的社會效應。
輿情監控的核心在于,按照一定的規則和方法,從互聯網上繁雜的信息當中將關注的信息抓取出來,對抓取到的信息進行分類,利用分類后的信息,對該類信息所代表的輿情的發展變化趨勢進行分析預測,進而可以提前采取有效的措施,避免負面社會效應的產生。
在上述過程中,通常情況下會預先構建輿情的不同類別的特征,對樣本數據進行特征標注,然后利用標注的數據進行機器學習,訓練分類器模型,最后調用訓練好的分類器模型對輿情進行分類。
由此可以看出,分類結果越準確,需要標注的數據就越多,因此為了提高分類的準確性,需要標注非常多的數據,在實現過程中非常占用時間。
發明內容
有鑒于此,本申請實施例提供一種訓練樣本生成、文本數據、輿情事件分類方法及相關設備,以解決現有技術中的問題。
為實現上述目的,一方面,本申請提供了一種訓練樣本生成方法,包括:
獲取預先提取的文本數據,對所述文本數據進行聚類處理,得到多個聚類結果;
從所述多個聚類結果中,選取與目標類別對應的聚類結果;
從所述與目標類別對應的聚類結果中,選取符合所述目標類別條件的文本數據;
標注所述符合目標類別條件的文本數據的目標類別,得到所述目標類別的訓練樣本。
又一方面,本申請還提供了一種文本數據分類方法,包括:
獲取待分析網頁的文本數據;
對所述文本數據進行分詞處理;
加載分類模型,對分詞處理后的文本數據分別進行分類;所述分類模型為,利用如上所述訓練樣本生成方法生成的訓練樣本,進行訓練得到的分類模型;
存儲所述待分析網頁的文本數據的分類結果。
又一方面,本申請還提供了一種輿情事件分類方法,其包括:
接收用戶輸入的包含待分析事件的信息;
依據所述信息確定所述待分析事件對應的至少一個網頁;
分析所述至少一個網頁的文本數據的分類結果,確定至少一個網頁對應的待分析事件的輿情事件的類別,所述分類結果按照如上所述文本數據分類方法獲得。
又一方面,本申請還提供了一種訓練樣本生成裝置,包括:
聚類模塊,用于獲取預先提取的文本數據,對所述文本數據進行聚類處理,得到多個聚類結果;
聚類結果選擇模塊,用于從所述多個聚類結果中,選取與目標類別對應的聚類結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811278481.7/2.html,轉載請聲明來源鉆瓜專利網。





