[發(fā)明專利]垃圾文本判別方法、裝置及服務(wù)器有效
申請?zhí)枺?/td> | 201810040355.1 | 申請日: | 2018-01-16 |
公開(公告)號: | CN108334567B | 公開(公告)日: | 2021-09-10 |
發(fā)明(設(shè)計)人: | 鄭培凝 | 申請(專利權(quán))人: | 北京奇藝世紀科技有限公司 |
主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 垃圾 文本 判別 方法 裝置 服務(wù)器 | ||
本發(fā)明實施例提供了一種垃圾文本判別方法、裝置及服務(wù)器,其中,垃圾文本判別方法,應(yīng)用于服務(wù)器,該方法包括:將接收到的文本發(fā)送給預(yù)先排序好的各模塊按順序進行判別;針對每一個模塊,將該模塊下的不同預(yù)處理進行排序,得到該模塊的預(yù)處理序列;獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本;按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理;針對每一個模塊,將經(jīng)該模塊的預(yù)處理序列預(yù)處理過的文本按當前模塊預(yù)設(shè)的函數(shù)進行計算,得到文本的屬性;根據(jù)每一個模塊得到的文本的屬性,做出對所述文本的判別結(jié)果。使用該方法可以省去重復(fù)預(yù)處理,提高對垃圾文本的預(yù)處理效率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別是涉及一種垃圾文本判別方法、裝置及服務(wù)器。
背景技術(shù)
目前文本反垃圾在各個互動、社交類的客戶端、網(wǎng)站、App(Application,應(yīng)用)均有不同程度的應(yīng)用。文本反垃圾猶如一張濾網(wǎng),過濾掉廣告、虛假宣傳或影響社會健康的一系列不合適的內(nèi)容,保障了各客戶端、網(wǎng)站和App處于一個積極向上、純凈的交流環(huán)境。
在進行文本反垃圾時需要先對垃圾文本進行判別,現(xiàn)有技術(shù)判別垃圾文本的通常方法是,當服務(wù)器接收到文本時,將文本同時分發(fā)給不同的用于對文本進行預(yù)處理并計算的模塊,各模塊按一定次序?qū)ξ谋具M行預(yù)處理后,對預(yù)處理后的文本進行屬性計算,其中,各模塊會分別計算出文本的不同屬性,服務(wù)器再將不同模塊計算出的屬性匯聚起來進行總計算,得出對該文本最終的判別結(jié)果。
由于現(xiàn)有技術(shù)是將文本同時分發(fā)給不同模塊后,不同模塊各自獨立地同時對該文本進行預(yù)處理,這樣就會導(dǎo)致當不同模塊存有相同的預(yù)處理時,各模塊對同一文本進行重復(fù)的預(yù)處理,從而使計算量增大,占用更多的CPU資源,對垃圾文本的判別效率較低。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種垃圾文本判別方法、裝置及服務(wù)器,可以減少對垃圾文本判別的計算量、節(jié)約CPU資源,從而提高判別垃圾文本的效率。具體技術(shù)方案如下:
第一方面,本發(fā)明實施例提供了一種垃圾文本判別方法,一種垃圾文本判別方法,應(yīng)用于服務(wù)器,包括:
將接收到的文本發(fā)送給預(yù)先排序好的各模塊按順序進行判別;
針對每一個模塊,將該模塊下的不同預(yù)處理進行排序,得到該模塊的預(yù)處理序列;
針對每一個模塊的預(yù)處理序列,獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本,所述其他模塊的預(yù)處理序列的預(yù)處理子序列與當前模塊的預(yù)處理序列的預(yù)處理子序列相同;
按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理,所述剩余預(yù)處理部分為當前模塊的預(yù)處理序列中未被其他模塊的預(yù)處理子序列預(yù)處理過的預(yù)處理部分;
針對每一個模塊,將經(jīng)該模塊的預(yù)處理序列預(yù)處理過的文本按當前模塊預(yù)設(shè)的函數(shù)進行計算,得到文本的屬性;
根據(jù)每一個模塊得到的文本的屬性,做出對所述文本的判別結(jié)果。
可選的,所述針對每一個模塊的預(yù)處理序列,獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本,所述其他模塊的預(yù)處理序列的預(yù)處理子序列與當前模塊的預(yù)處理序列的預(yù)處理子序列相同;按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理,包括:
針對每一個模塊的預(yù)處理序列,判斷是否存有經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本;
如果是,獲取經(jīng)其他模塊預(yù)處理序列的預(yù)處理子序列預(yù)處理過的文本,所述其他模塊的預(yù)處理序列的預(yù)處理子序列與當前模塊的預(yù)處理序列的預(yù)處理子序列相同;按當前模塊的預(yù)處理序列對所獲取的文本進行當前模塊的預(yù)處理序列中剩余預(yù)處理部分的預(yù)處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀科技有限公司,未經(jīng)北京奇藝世紀科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810040355.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。