[發明專利]一種網絡社區話題分類方法及裝置有效
| 申請號: | 201811062800.0 | 申請日: | 2018-09-12 |
| 公開(公告)號: | CN109446393B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 吳旭;黨習歌;頡夏青 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/332;G06F16/35;G06F40/284;G06Q50/00 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 社區 話題 分類 方法 裝置 | ||
1.一種網絡社區話題分類方法,其特征在于,包括:
收集網絡社區話題語料并確定對應的類別標記,對收集的話題語料進行預處理后作為樣本集;
根據所述樣本集進行計算并造代價敏感矩陣;其中,
所述根據所述樣本集進行計算并構造代價敏感矩陣,包括:
根據所述樣本集中各樣本的類別標記統計類別總數,并計算各類別的先驗概率;
根據所述先驗概率分別計算各樣本屬于各類別的后驗概率;
對所述后驗概率進行變換作為對應樣本錯分的代價敏感值;
根據所述代價敏感值構造代價敏感矩陣;
基于所述代價敏感矩陣對所述樣本集進行訓練得到分類器;
使用所述分類器對網絡社區文本進行分類。
2.根據權利要求1所述的方法,其特征在于,所述對收集的話題語料進行預處理后作為樣本集,包括:
對收集的話題語料進行分詞得到各詞匯;
去除得到的各詞匯中的停用詞得到各有效詞匯;
計算各有效詞匯的特征值;
根據各有效詞匯的特征值,對所述收集的話題語料進行向量化處理得到文本矩陣并作為樣本集。
3.根據權利要求1所述的方法,其特征在,所述基于所述代價敏感矩陣對所述樣本集進行訓練得到分類器,包括:
根據所述代價敏感矩陣中的各代價敏感值確定各樣本對應的基尼系數;
根據所述基尼系數選擇決策樹的分支節點,并對所述樣本集進行隨機森林訓練,得到分類器。
4.根據權利要求3所述的方法,其特征在于,所述根據所述代價敏感矩陣中的各代價敏感值確定各樣本對應的基尼系數,包括:
分別將各樣本作為當前樣本,根據當前樣本屬于各類別的條件概率和對應的敏感代價值,計算當前樣本的引入敏感代價后的基尼系數;
所述基尼系數的計算公式為:GiniCost(D)=∑AIJP(I|d)P(J|d),其中,1≤I≤N,1≤J≤N,N為類別總數,GiniCost(D)為樣本d的基尼系數,AIJ表示樣本d的類別標識為J,被誤分到類別I的代價。
5.一種網絡社區話題分類裝置,其特征在于,包括:
收集模塊,用于收集網絡社區話題語料并確定對應的類別標記;
預處理模塊,用于對所述收集模塊收集的話題語料進行預處理后并作為樣本集;
構造模塊,用于根據所述樣本集進行計算并構造代價敏感矩陣;其中,所述構造模塊包括:第二計算子模塊、第三計算子模塊、變換子模塊和構造子模塊;
所述第二計算子模塊,用于根據所述樣本集中各樣本的類別標記統計類別總數,并分別計算各類別的先驗概率;
所述第三計算子模塊,用于根據所述第二計算子模塊計算的先驗概率分別計算各樣本屬于各類別的后驗概率;
變換子模塊,用于對所述第三計算子模塊計算的后驗概率進行變換作為對應樣本錯分的代價敏感值;
構造子模塊,用于根據所述變換子模塊得到的各代價敏感值構造代價敏感矩陣;
訓練模塊,用于基于所述構造模塊構造的代價敏感矩陣對所述預處理模塊得到的樣本集進行訓練得到分類器;
分類模塊,用于使用所述訓練模塊得到的分類器對網絡社區文本進行分類。
6.根據權利要求5所述的裝置,其特征在于,所述預處理模塊具體包括:分詞子模塊、去詞子模塊、第一計算子模塊和向量化子模塊;
所述分詞子模塊,用于對所述收集模塊收集的話題語料進行分詞得到各詞匯;
所述去詞子模塊,用于去除所述分詞子模塊得到的各詞匯中的停用詞得到有效詞匯;
所述第一計算子模塊,用于計算所述去詞子模塊得到各有效詞匯的特征值;
所述向量化子模塊,用于根據所述第一計算子模塊計算的各有效詞匯的特征值,對所述收集模塊收集的話題語料進行向量化處理得到文本矩陣并作為樣本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811062800.0/1.html,轉載請聲明來源鉆瓜專利網。





