[發(fā)明專(zhuān)利]基于主題共識(shí)覆蓋率的網(wǎng)絡(luò)社區(qū)垃圾信息檢測(cè)與過(guò)濾方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201310029853.3 | 申請(qǐng)日: | 2013-01-25 |
| 公開(kāi)(公告)號(hào): | CN103092975A | 公開(kāi)(公告)日: | 2013-05-08 |
| 發(fā)明(設(shè)計(jì))人: | 李石君;湯小月;余偉;楊莎;劉晶;丁永剛;胡亞慧;王凱 | 申請(qǐng)(專(zhuān)利權(quán))人: | 武漢大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 主題 共識(shí) 覆蓋率 網(wǎng)絡(luò) 社區(qū) 垃圾 信息 檢測(cè) 過(guò)濾 方法 | ||
1.一種基于主題共識(shí)覆蓋率的網(wǎng)絡(luò)社區(qū)垃圾信息檢測(cè)與過(guò)濾方法,其特征在于,包括以下步驟:
步驟1,數(shù)據(jù)準(zhǔn)備:采集兩組以上的圍繞不同主題進(jìn)行交流的主貼及相應(yīng)的回復(fù)的文本內(nèi)容,抽樣其中部分組的主貼與回復(fù)作為訓(xùn)練集,其余作為待檢測(cè)集,對(duì)訓(xùn)練集中的文本內(nèi)容進(jìn)行人工分類(lèi),判斷回復(fù)的文本內(nèi)容是否與各自的主貼內(nèi)容相關(guān),不相關(guān)的視為無(wú)效的垃圾內(nèi)容,分類(lèi)的結(jié)果作為訓(xùn)練數(shù)據(jù)集;
步驟2,計(jì)算詞頻向量:運(yùn)用詞袋算法,將之前采集到的訓(xùn)練集和待檢測(cè)集中的各個(gè)主貼和全部的回復(fù)內(nèi)容全部以詞頻向量的形式表示;
步驟3,聚合得到主題共識(shí)的詞頻向量:對(duì)訓(xùn)練集和待檢測(cè)集中的各組主貼與回復(fù),聚合各組中所有文本內(nèi)容對(duì)應(yīng)的詞頻向量,得到圍繞各組內(nèi)容主題的主題共識(shí)的詞頻向量;
步驟4,計(jì)算特征值,組合特征向量:計(jì)算訓(xùn)練數(shù)據(jù)集和待檢測(cè)集中各文本內(nèi)容的文本特征值,將文本特征值組合起來(lái)形成與文本內(nèi)容相對(duì)應(yīng)的特征向量,文本特征值包括主題共識(shí)覆蓋率和其他文本特征值,具體包括以下步驟,
步驟4.1,計(jì)算主題共識(shí)覆蓋率:以步驟3中聚合得到的主題共識(shí)的詞頻向量為基礎(chǔ),計(jì)算各文本內(nèi)容的主題共識(shí)覆蓋率;
步驟4.2,計(jì)算其他文本特征值:其他文本特征值包括文本長(zhǎng)度、文本信息熵、文本作者可信度、敏感詞匯數(shù)量、包含鏈接數(shù)量中的一種或其組合;
步驟4.3,組合主題共識(shí)覆蓋率和各文本內(nèi)容的其他文本特征值,形成特征向量;
步驟5,訓(xùn)練文本分類(lèi)器:采用以支持向量機(jī)模型為基礎(chǔ)的文本內(nèi)容分類(lèi)器,用訓(xùn)練集中的各文本內(nèi)容的特征向量作為樣本輸入,以步驟1中對(duì)這些文本內(nèi)容的分類(lèi)結(jié)果作為標(biāo)準(zhǔn)輸出,對(duì)支持向量機(jī)分類(lèi)器進(jìn)行反復(fù)訓(xùn)練,直到分類(lèi)器對(duì)訓(xùn)練樣本的分類(lèi)準(zhǔn)確率達(dá)到95%以上;
步驟6,文本分類(lèi),檢測(cè)垃圾內(nèi)容:對(duì)待檢測(cè)集中的各文本內(nèi)容進(jìn)行分類(lèi),以待檢測(cè)文本內(nèi)容的特征向量作為輸入,用步驟5中已調(diào)好參數(shù)的支持向量機(jī)分類(lèi)器進(jìn)行分類(lèi),判斷該段待檢測(cè)文本內(nèi)容是否為垃圾信息。
2.根據(jù)權(quán)利要求1所述的一種基于主題共識(shí)覆蓋率的網(wǎng)絡(luò)社區(qū)垃圾信息檢測(cè)與過(guò)濾方法,其特征在于:所述步驟3中,聚合操作通過(guò)平均值聚合方法實(shí)現(xiàn),即先對(duì)所有詞頻向量中各個(gè)對(duì)應(yīng)位置上的元素求平均值,然后將不同位置上的元素的平均值組合成為一個(gè)新的向量:
設(shè)詞表空間用集合{w1,w2,...,wj,...,wN}表示,其中N為詞表空間大小,即預(yù)先設(shè)定的詞表中的詞匯數(shù)量,將第i個(gè)文本內(nèi)容記為Di,文本中詞匯wj出現(xiàn)的次數(shù)即詞頻用‖wj‖i表示,各文本內(nèi)容的詞頻向量依次表示為:
.
.
.
其中,K為圍繞同一個(gè)主題進(jìn)行討論的全部帖子數(shù)量;
詞匯wj在所有文本中的詞頻的平均值為:
將通過(guò)平均值聚合法得到的主題共識(shí)表示為Gm,所對(duì)應(yīng)的主題共識(shí)詞頻向量用表示,則:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310029853.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:磷擴(kuò)散爐抽風(fēng)管
- 下一篇:一種微極距離子膜電解槽
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于區(qū)塊鏈的交易信息的共識(shí)方法及系統(tǒng)
- 一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)
- 一種基于區(qū)塊鏈系統(tǒng)的共識(shí)方法及區(qū)塊鏈系統(tǒng)
- 蜜獾拜占庭容錯(cuò)共識(shí)機(jī)制的共識(shí)節(jié)點(diǎn)變更方法及相關(guān)裝置
- 區(qū)塊鏈共識(shí)節(jié)點(diǎn)的重啟處理方法、共識(shí)節(jié)點(diǎn)及區(qū)塊鏈系統(tǒng)
- 區(qū)塊鏈共識(shí)處理方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 區(qū)塊鏈的節(jié)點(diǎn)處理方法、裝置、節(jié)點(diǎn)設(shè)備及存儲(chǔ)介質(zhì)
- 用于區(qū)塊鏈系統(tǒng)的共識(shí)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 區(qū)塊鏈共識(shí)引擎系統(tǒng)和區(qū)塊鏈共識(shí)處理流程方法
- 一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)
- 覆蓋率驅(qū)動(dòng)的隨機(jī)驗(yàn)證的方法
- 一種由流程圖自動(dòng)產(chǎn)生覆蓋率代碼的方法及裝置
- 一種功能驗(yàn)證方法和裝置
- 測(cè)試覆蓋率統(tǒng)計(jì)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 覆蓋率測(cè)試方法,測(cè)試裝置,服務(wù)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 覆蓋率測(cè)試方法、測(cè)試裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- PHP代碼覆蓋率報(bào)告的生成方法及裝置
- 一種通用接口覆蓋率模型驗(yàn)證環(huán)境自動(dòng)生成方法、系統(tǒng)及介質(zhì)
- 一種基于遺傳算法的覆蓋率收斂方法及系統(tǒng)
- 驗(yàn)證方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





