[發(fā)明專利]一種垃圾信息判斷方法和裝置以及一種服務器集群有效
| 申請?zhí)枺?/td> | 201710558595.6 | 申請日: | 2017-06-30 |
| 公開(公告)號: | CN107256214B | 公開(公告)日: | 2020-09-25 |
| 發(fā)明(設(shè)計)人: | 宋時雨 | 申請(專利權(quán))人: | 聯(lián)想(北京)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F40/289;G06Q50/00 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 安之斐;李文娟 |
| 地址: | 100085*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 垃圾 信息 判斷 方法 裝置 以及 服務器 集群 | ||
本發(fā)明的實施例提供了一種垃圾信息判斷方法和裝置以及一種服務器集群,所述垃圾信息判斷方法包括:獲取特征詞匯表,其中所述特征詞匯表通過對預先獲取的多條樣本信息之間進行文本相似度計算而得到;接收待判斷的目標信息;將所述目標信息與所述特征詞匯表進行比較,以判斷所述目標信息是否為垃圾信息。
技術(shù)領(lǐng)域
本發(fā)明的實施例涉及通信技術(shù)領(lǐng)域,尤其涉及一種垃圾信息判斷方法和裝置以及一種服務器集群。
背景技術(shù)
網(wǎng)絡(luò)社區(qū)及論壇的興起由來已久,網(wǎng)民們可以在論壇上針對自己感興趣的事物發(fā)表觀點,為了及時獲取用戶對于自己使用的某種產(chǎn)品或服務的看法,產(chǎn)品或服務提供商可以借助輿情分析系統(tǒng)來挖掘網(wǎng)民的情感傾向及觀點態(tài)度。然而,網(wǎng)民評論的內(nèi)容往往質(zhì)量良莠不齊,并且會摻雜有大量與觀點表達無關(guān)的評論,這部分評論語料不僅浪費系統(tǒng)資源,還將影響輿情分析結(jié)論的準確性。
在現(xiàn)有技術(shù)中,一般基于Logistic回歸來識別網(wǎng)絡(luò)社區(qū)中的垃圾評論。具體地,這一方案采用人為標注的垃圾評論與合法評論作為訓練數(shù)據(jù),利用向量空間模型來表示每條評論,并基于Logistic算法訓練垃圾評論識別模型。但是,該方案得到的模型對垃圾評論的識別效果很大程度上依賴于人為標注的評論語料,由于人為標注數(shù)據(jù)的成本較大,所以很難得到較為充足的標注數(shù)據(jù);此外,即便能夠獲得充足的標注數(shù)據(jù),但由于網(wǎng)絡(luò)用語總在變化,用于訓練模型的數(shù)據(jù)同樣需要不斷更新,這也極大增加了數(shù)據(jù)標注的難度。
因此,需要一種能夠準確有效地判斷垃圾信息的方法和裝置。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種垃圾信息判斷方法,包括:獲取特征詞匯表,其中所述特征詞匯表通過對預先獲取的多條樣本信息之間進行文本相似度計算而得到;接收待判斷的目標信息;將所述目標信息與所述特征詞匯表進行比較,以判斷所述目標信息是否為垃圾信息。
根據(jù)本發(fā)明的另一個方面,提供了一種垃圾信息判斷裝置,包括:獲取單元,配置為獲取特征詞匯表,其中所述特征詞匯表通過對預先獲取的多條樣本信息之間進行文本相似度計算而得到;接收單元,配置為接收待判斷的目標信息;判斷單元,配置為將所述目標信息與所述特征詞匯表進行比較,以判斷所述目標信息是否為垃圾信息。
根據(jù)本發(fā)明的再一方面,提供了一種服務器集群,包括:至少一個處理器;至少一個存儲器;和存儲在所述至少一個存儲器的一個或多個存儲器中的計算機程序指令,在所述計算機程序指令被所述至少一個處理器中的一個或多個處理器運行時,使得所述一個或多個處理器執(zhí)行以下步驟:獲取特征詞匯表,其中所述特征詞匯表通過對預先獲取的多條樣本信息之間進行文本相似度計算而得到;接收待判斷的目標信息;將所述目標信息與所述特征詞匯表進行比較,以判斷所述目標信息是否為垃圾信息。
在根據(jù)本發(fā)明提供的垃圾信息判斷方法和裝置以及服務器集群中,可以根據(jù)樣本信息的文本相似度計算獲取特征詞匯表,并根據(jù)特征詞匯表的信息判斷目標信息是否為垃圾信息。本發(fā)明提供的垃圾信息判斷方法能夠準確判斷垃圾信息,并且能夠及時高效地對垃圾信息進行更新,以獲取更加精確的輿情分析數(shù)據(jù),節(jié)約系統(tǒng)資源。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1示意性圖示了根據(jù)本發(fā)明實施例的垃圾信息判斷方法的流程圖;
圖2示意性圖示了根據(jù)本發(fā)明實施例的垃圾信息判斷裝置的結(jié)構(gòu)框圖;
圖3示意性圖示了根據(jù)本發(fā)明實施例的服務器集群的結(jié)構(gòu)框圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于聯(lián)想(北京)有限公司,未經(jīng)聯(lián)想(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710558595.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





