[發(fā)明專利]一種網(wǎng)絡(luò)社區(qū)話題分類方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201811062800.0 | 申請(qǐng)日: | 2018-09-12 |
| 公開(公告)號(hào): | CN109446393B | 公開(公告)日: | 2020-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 吳旭;黨習(xí)歌;頡夏青 | 申請(qǐng)(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/332;G06F16/35;G06F40/284;G06Q50/00 |
| 代理公司: | 北京辰權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 11619 | 代理人: | 劉廣達(dá) |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 社區(qū) 話題 分類 方法 裝置 | ||
本發(fā)明公開了一種網(wǎng)絡(luò)社區(qū)話題分類方法及裝置,屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。所述方法包括:收集網(wǎng)絡(luò)社區(qū)話題語料并確定對(duì)應(yīng)的類別標(biāo)記,對(duì)收集的話題語料進(jìn)行預(yù)處理后作為樣本集;根據(jù)類別標(biāo)記和樸素貝葉斯算法構(gòu)造樣本集錯(cuò)分的代價(jià)敏感矩陣;基于代價(jià)敏感矩陣對(duì)樣本集進(jìn)行訓(xùn)練得到分類器;使用分類器對(duì)網(wǎng)絡(luò)社區(qū)文本進(jìn)行分類。本發(fā)明中,通過構(gòu)造代價(jià)敏感矩陣,并在分類器的訓(xùn)練過程中,將代價(jià)敏感引入隨機(jī)森林,為各類別加入錯(cuò)分代價(jià),且以錯(cuò)分代價(jià)最小為目的進(jìn)行分類器訓(xùn)練,從而在保證了分類器性能的前提下,有效的解決了由于數(shù)據(jù)不均衡帶來的分類準(zhǔn)確率低的問題,進(jìn)而為網(wǎng)絡(luò)社區(qū)話題的分析和監(jiān)管提供了有利基礎(chǔ)。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)社區(qū)話題分類方法及裝置。
背景技術(shù)
上世紀(jì)六十年代初,互聯(lián)網(wǎng)急速發(fā)展,而中國在用戶規(guī)模和信息資源上都位居前列。如今,互聯(lián)網(wǎng)開始逐漸向人們的日常生活、工作和休閑娛樂中深入,這對(duì)于信息化的發(fā)展起到極大的推動(dòng)作用,人們?cè)诮舆B不斷的從互聯(lián)網(wǎng)上接收獲取數(shù)據(jù)的同時(shí),開始創(chuàng)建和分享信息。網(wǎng)絡(luò)社區(qū)提供了一個(gè)網(wǎng)友間彼此溝通討論、進(jìn)行信息共享的平臺(tái),網(wǎng)絡(luò)社區(qū)是指包括論壇、貼吧、公告欄、在線聊天、互動(dòng)交友及無線增值服務(wù)等形式在內(nèi)的網(wǎng)上交流空間。由于網(wǎng)絡(luò)社區(qū)的開放性強(qiáng),用戶群體廣泛,因而成為廣大網(wǎng)民信息交流的重要平臺(tái)和言論傳播的有效載體,同時(shí)也成為網(wǎng)絡(luò)輿論情況的重要來源。
網(wǎng)絡(luò)輿論情況不止是廣大網(wǎng)民的態(tài)度、觀點(diǎn)、情感的傳播、表達(dá)與互動(dòng),還直接反映著社會(huì)中的輿論情況,群眾的不良情緒極有可能是對(duì)網(wǎng)絡(luò)輿論情況中突發(fā)事件的不恰當(dāng)處理激發(fā)而來,從而引發(fā)群眾作出違反規(guī)定或者過于激動(dòng)的舉動(dòng),甚至對(duì)社會(huì)穩(wěn)定造成威脅,因而對(duì)網(wǎng)絡(luò)社區(qū)話題進(jìn)行有效分類和分析,對(duì)輿論情況監(jiān)管具有重大意義。
然而,網(wǎng)絡(luò)社區(qū)中大量用戶對(duì)熱點(diǎn)話題的集中討論極易造成數(shù)據(jù)的不均衡,目前已有的分類方法中,均不能很好的解決數(shù)據(jù)不均衡問題,從而造成一些數(shù)據(jù)的分類不準(zhǔn)確。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)的不足,本發(fā)明提供一種網(wǎng)絡(luò)社區(qū)話題分類方法及裝置。
第一方面,本發(fā)明提供一種網(wǎng)絡(luò)社區(qū)話題分類方法,其特征在于,包括:
收集網(wǎng)絡(luò)社區(qū)話題語料并確定對(duì)應(yīng)的類別標(biāo)記,對(duì)收集的話題語料進(jìn)行預(yù)處理后作為樣本集;
根據(jù)所述類別標(biāo)記和樸素貝葉斯算法構(gòu)造所述樣本集錯(cuò)分的代價(jià)敏感矩陣;
基于所述代價(jià)敏感矩陣對(duì)所述樣本集進(jìn)行訓(xùn)練得到分類器;
使用所述分類器對(duì)網(wǎng)絡(luò)社區(qū)文本進(jìn)行分類。
可選地,所述對(duì)收集的話題語料進(jìn)行預(yù)處理后作為樣本集,包括:
對(duì)收集的話題語料進(jìn)行分詞得到各詞匯;
去除得到的各詞匯中的停用詞得到各有效詞匯;
計(jì)算各有效詞匯的特征值;
根據(jù)各有效詞匯的特征值,對(duì)所述收集的話題語料進(jìn)行向量化處理得到文本矩陣并作為樣本集。
可選地,所述根據(jù)所述類別標(biāo)記和樸素貝葉斯算法構(gòu)造所述樣本集錯(cuò)分的代價(jià)敏感矩陣,具體包括:
根據(jù)所述樣本集中各樣本的類別標(biāo)記統(tǒng)計(jì)類別總數(shù),并計(jì)算各類別的先驗(yàn)概率;
根據(jù)所述先驗(yàn)概率分別計(jì)算各樣本屬于各類別的后驗(yàn)概率;
對(duì)所述后驗(yàn)概率進(jìn)行變換作為對(duì)應(yīng)樣本錯(cuò)分的代價(jià)敏感值;
根據(jù)所述代價(jià)敏感值構(gòu)造代價(jià)敏感矩陣。
可選地,所述基于所述代價(jià)敏感矩陣對(duì)所述樣本集進(jìn)行訓(xùn)練得到分類器,包括:
根據(jù)所述代價(jià)敏感矩陣中的各代價(jià)敏感值確定各樣本對(duì)應(yīng)的基尼系數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811062800.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種網(wǎng)絡(luò)社區(qū)的社區(qū)信息發(fā)布方法、裝置及系統(tǒng)
- 一種挖掘社區(qū)用戶的方法及裝置
- 社區(qū)應(yīng)用消息處理方法和裝置
- 社交網(wǎng)絡(luò)社區(qū)影響力評(píng)估算法
- 一種基于物聯(lián)網(wǎng)的智慧社區(qū)管理系統(tǒng)
- 一種一體化社區(qū)服務(wù)系統(tǒng)
- 社區(qū)配送路徑生成方法和裝置
- 社區(qū)物流交互系統(tǒng)
- 一種基于大數(shù)據(jù)的社區(qū)活動(dòng)推薦方法及裝置
- 一種用于智慧社區(qū)的服務(wù)信息的傳輸方法及系統(tǒng)
- 話題檢測的方法和裝置
- 一種科研文獻(xiàn)話題發(fā)現(xiàn)和演化跟蹤的方法
- 話題驅(qū)動(dòng)的人工智能回應(yīng)方法及裝置
- 熱點(diǎn)話題早期發(fā)展趨勢(shì)預(yù)測系統(tǒng)及預(yù)測方法
- 話題檢測方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種消息組織方法和服務(wù)器
- 話題篩選和發(fā)布的方法、裝置和服務(wù)器
- 話題內(nèi)容的排序方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 大數(shù)據(jù)話題日志處理方法、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種基于人工智能的熱點(diǎn)話題數(shù)據(jù)處理方法及話題服務(wù)器





