[發(fā)明專利]垃圾消息攔截方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201710276058.2 | 申請(qǐng)日: | 2017-04-25 |
| 公開(kāi)(公告)號(hào): | CN108733730A | 公開(kāi)(公告)日: | 2018-11-02 |
| 發(fā)明(設(shè)計(jì))人: | 王衛(wèi)姣 | 申請(qǐng)(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;H04L12/58 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;姜?jiǎng)?/td> |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 垃圾消息 用戶消息 停用詞 詞語(yǔ) 方法和裝置 最大相似度 攔截 相似度 分詞 權(quán)重 去除 取出 長(zhǎng)度條件 聊天記錄 余弦公式 語(yǔ)料庫(kù) 語(yǔ)料 重復(fù) | ||
1.一種垃圾消息攔截方法,其特征在于,包括如下依次執(zhí)行的步驟:
a)從歷史聊天記錄中抽取出滿足長(zhǎng)度條件的消息;
b)對(duì)抽取出的消息進(jìn)行去重復(fù);
c)對(duì)去重復(fù)的消息進(jìn)行分詞并去除停用詞,所述停用詞是指沒(méi)有具體意義的詞語(yǔ);
d)計(jì)算依次執(zhí)行步驟a)至c)后得到的每條消息的每個(gè)詞語(yǔ)的權(quán)重;
e)借助余弦公式計(jì)算經(jīng)處理的用戶消息與依次執(zhí)行步驟a)至d)后形成的垃圾消息語(yǔ)料庫(kù)中每條語(yǔ)料之間的最大相似度,其中,所述經(jīng)處理的用戶消息是經(jīng)分詞后又去除停用詞并最后計(jì)算出每個(gè)詞語(yǔ)的權(quán)重的用戶消息;
f)根據(jù)所述最大相似度確定和調(diào)整相似度閾值,并借助所述相似度閾值攔截垃圾消息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,抽取出的消息的長(zhǎng)度大于50個(gè)字符。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用戶消息是用戶離線消息或用戶在線消息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)所述抽取出的消息進(jìn)行去重復(fù)之后且在進(jìn)一步進(jìn)行分詞之前通過(guò)人工的方式去除非垃圾消息。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,如下地確定和調(diào)整用于攔截垃圾消息的相似度閾值:
設(shè)置相似度閾值的初始值,當(dāng)所述最大相似度大于或等于所述相似度閾值的初始值時(shí),要求用戶輸入驗(yàn)證碼,如果一部分非垃圾消息在發(fā)送的情況下需要用戶輸入驗(yàn)證碼,則將相似度閾值增大,而如果一部分垃圾消息未被攔截到,則將所述一部分垃圾消息擴(kuò)充到所述垃圾消息語(yǔ)料庫(kù)中并將相似度閾值減小,直至實(shí)現(xiàn)攔截最大量的垃圾消息且誤攔截最少的非垃圾消息。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述余弦公式為
其中,M為所述垃圾消息語(yǔ)料庫(kù)中的任意一條語(yǔ)料;U為經(jīng)分詞后又去除停用詞并最后計(jì)算出每個(gè)詞語(yǔ)的權(quán)重的用戶消息,并且其中,s1,s2,...,si是在M和U中同時(shí)出現(xiàn)的詞語(yǔ);t1,t2,...,tj是在M中出現(xiàn)的所有詞語(yǔ);r1,r2,...,rk是在U中出現(xiàn)的所有詞語(yǔ);i≤min(j,k)。
7.一種垃圾消息攔截裝置,其特征在于,所述垃圾消息攔截裝置包括垃圾消息語(yǔ)料準(zhǔn)備模塊以及消息處理及垃圾消息攔截模塊,其中,
所述垃圾消息語(yǔ)料準(zhǔn)備模塊用于從歷史聊天記錄中抽取出滿足長(zhǎng)度條件的消息、對(duì)抽取出的消息進(jìn)行去重復(fù)、分詞、去除停用詞以及計(jì)算出依次經(jīng)過(guò)上述處理的每條消息的每個(gè)詞語(yǔ)的權(quán)重,從而形成垃圾消息語(yǔ)料庫(kù),其中,所述停用詞是指沒(méi)有具體意義的詞語(yǔ);
所述消息處理及垃圾消息攔截模塊用于借助余弦公式計(jì)算經(jīng)處理的用戶消息與所述垃圾消息語(yǔ)料庫(kù)中每條語(yǔ)料之間的最大相似度并根據(jù)所述最大相似度確定和調(diào)整相似度閾值以便借助所述相似度閾值攔截垃圾消息,其中,所述經(jīng)處理的用戶消息是經(jīng)分詞后又去除停用詞并最后計(jì)算出每個(gè)詞語(yǔ)的權(quán)重的用戶消息。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,抽取出的消息的長(zhǎng)度大于50個(gè)字符。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述用戶消息是用戶離線消息或用戶在線消息。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,在對(duì)所述抽取出的消息進(jìn)行去重復(fù)之后且在進(jìn)一步進(jìn)行分詞之前通過(guò)人工的方式去除非垃圾消息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710276058.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種即時(shí)消息與語(yǔ)音通訊方式互通的方法及系統(tǒng)
- 消息處理裝置、方法、消息業(yè)務(wù)系統(tǒng)和消息中心
- 顯示用戶別名的方法及短消息中心
- 社會(huì)性網(wǎng)絡(luò)的消息系統(tǒng)
- 基于同一交換中心的企業(yè)移動(dòng)辦公系統(tǒng)發(fā)送點(diǎn)對(duì)點(diǎn)消息的方法
- 消息推送方法、裝置和系統(tǒng)
- 一種消息處理系統(tǒng)、方法及裝置
- 一種消息重傳方法、消息重傳服務(wù)器及用戶設(shè)備
- 一種用戶消息同步方法、裝置、服務(wù)器及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種群發(fā)消息中指定用戶可見(jiàn)的方法及系統(tǒng)





