[發(fā)明專利]垃圾文本判別方法、裝置及服務(wù)器有效

申請?zhí)枺?/td>	201810040355.1	申請日：	2018-01-16
公開（公告）號：	CN108334567B	公開（公告）日：	2021-09-10
發(fā)明（設(shè)計）人：	鄭培凝	申請（專利權(quán)）人：	北京奇藝世紀科技有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F40/289
代理公司：	北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413	代理人：	馬敬;項京
地址：	100080 北京市海淀區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	垃圾文本判別方法裝置服務(wù)器
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實施例提供了一種垃圾文本判別方法、裝置及服務(wù)器，其中，垃圾文本判別方法，應(yīng)用于服務(wù)器，該方法包括：將接收到的文本發(fā)送給預(yù)先排序好的各模塊按順序進行判別；針對每一個模塊，將該模塊下的不同預(yù)處理進行排序，得到該模塊的預(yù)處理序列；獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本；按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理；針對每一個模塊，將經(jīng)該模塊的預(yù)處理序列預(yù)處理過的文本按當前模塊預(yù)設(shè)的函數(shù)進行計算，得到文本的屬性；根據(jù)每一個模塊得到的文本的屬性，做出對所述文本的判別結(jié)果。使用該方法可以省去重復(fù)預(yù)處理，提高對垃圾文本的預(yù)處理效率。

技術(shù)領(lǐng)域

本發(fā)明涉及計算機技術(shù)領(lǐng)域，特別是涉及一種垃圾文本判別方法、裝置及服務(wù)器。

背景技術(shù)

目前文本反垃圾在各個互動、社交類的客戶端、網(wǎng)站、App(Application，應(yīng)用)均有不同程度的應(yīng)用。文本反垃圾猶如一張濾網(wǎng)，過濾掉廣告、虛假宣傳或影響社會健康的一系列不合適的內(nèi)容，保障了各客戶端、網(wǎng)站和App處于一個積極向上、純凈的交流環(huán)境。

在進行文本反垃圾時需要先對垃圾文本進行判別，現(xiàn)有技術(shù)判別垃圾文本的通常方法是，當服務(wù)器接收到文本時，將文本同時分發(fā)給不同的用于對文本進行預(yù)處理并計算的模塊，各模塊按一定次序?qū)ξ谋具M行預(yù)處理后，對預(yù)處理后的文本進行屬性計算，其中，各模塊會分別計算出文本的不同屬性，服務(wù)器再將不同模塊計算出的屬性匯聚起來進行總計算，得出對該文本最終的判別結(jié)果。

由于現(xiàn)有技術(shù)是將文本同時分發(fā)給不同模塊后，不同模塊各自獨立地同時對該文本進行預(yù)處理，這樣就會導(dǎo)致當不同模塊存有相同的預(yù)處理時，各模塊對同一文本進行重復(fù)的預(yù)處理，從而使計算量增大，占用更多的CPU資源，對垃圾文本的判別效率較低。

發(fā)明內(nèi)容

本發(fā)明實施例的目的在于提供一種垃圾文本判別方法、裝置及服務(wù)器，可以減少對垃圾文本判別的計算量、節(jié)約CPU資源，從而提高判別垃圾文本的效率。具體技術(shù)方案如下：

第一方面，本發(fā)明實施例提供了一種垃圾文本判別方法，一種垃圾文本判別方法，應(yīng)用于服務(wù)器，包括：

將接收到的文本發(fā)送給預(yù)先排序好的各模塊按順序進行判別；

針對每一個模塊，將該模塊下的不同預(yù)處理進行排序，得到該模塊的預(yù)處理序列；

針對每一個模塊的預(yù)處理序列，獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本，所述其他模塊的預(yù)處理序列的預(yù)處理子序列與當前模塊的預(yù)處理序列的預(yù)處理子序列相同；

按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理，所述剩余預(yù)處理部分為當前模塊的預(yù)處理序列中未被其他模塊的預(yù)處理子序列預(yù)處理過的預(yù)處理部分；

針對每一個模塊，將經(jīng)該模塊的預(yù)處理序列預(yù)處理過的文本按當前模塊預(yù)設(shè)的函數(shù)進行計算，得到文本的屬性；

根據(jù)每一個模塊得到的文本的屬性，做出對所述文本的判別結(jié)果。

可選的，所述針對每一個模塊的預(yù)處理序列，獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本，所述其他模塊的預(yù)處理序列的預(yù)處理子序列與當前模塊的預(yù)處理序列的預(yù)處理子序列相同；按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理，包括：

針對每一個模塊的預(yù)處理序列，判斷是否存有經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本；

如果是，獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本，所述其他模塊的預(yù)處理序列的預(yù)處理子序列與當前模塊的預(yù)處理序列的預(yù)處理子序列相同；按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀科技有限公司，未經(jīng)北京奇藝世紀科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810040355.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]垃圾文本判別方法、裝置及服務(wù)器有效

專利文獻下載