[發(fā)明專利]垃圾信息的檢測方法、設備和存儲介質(zhì)在審

申請?zhí)枺?/td>	202010829688.X	申請日：	2020-08-17
公開（公告）號：	CN111950268A	公開（公告）日：	2020-11-17
發(fā)明（設計）人：	彭丁聰	申請（專利權）人：	珠海格力電器股份有限公司
主分類號：	G06F40/279	分類號：	G06F40/279;G06N3/08
代理公司：	北京聿宏知識產(chǎn)權代理有限公司 11372	代理人：	吳大建;李愛軍
地址：	519000***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	垃圾信息檢測方法設備存儲介質(zhì)
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種垃圾信息的檢測方法、設備和存儲介質(zhì)，方法包括：將待檢測信息輸入預先訓練的bert識別模型的編碼層進行編碼，得到待檢測信息對應的編碼特征向量；將待檢測信息對應的編碼特征向量輸入預先訓練的bert識別模型的解碼層進行解碼，并利用解碼層對應的判決模型，計算待檢測信息對應的編碼特征向量對應的概率；若概率大于或等于預設概率，確定待檢測信息為垃圾信息。本發(fā)明的技術方案，能夠?qū)崿F(xiàn)了單個字或詞與待檢測信息的上下文建立很好地編碼聯(lián)系，提高了單個字或詞的檢測結果的準確性，進而能夠降低垃圾信息的漏識別率、假識別率。

技術領域

本發(fā)明屬于信息安全技術領域，具體涉及一種垃圾信息的檢測方法、設備和存儲介質(zhì)。

背景技術

垃圾短信和垃圾郵件等垃圾信息困擾著大部分互聯(lián)網(wǎng)用戶群體?，F(xiàn)有技術中，通常使用關鍵字匹配或者樸素貝葉斯分類方法對垃圾信息進行檢測，這種檢測方法雖然識別率較高，但考慮的僅是單個字或詞對檢測結果的影響，不涉及句子之間和上下文意思的理解，因此對一些金融詐騙、釣魚郵件等故意逃避使用特定關鍵字的信息，攔截效果不是很好，存在漏識別問題；而對一些運營推廣、客戶營銷、賬單通知等含有特定關鍵字的信息又存在假識別的問題。

因此，如何降低垃圾信息的漏識別率、假識別率是本領域技術人員亟待解決的技術問題。

發(fā)明內(nèi)容

本發(fā)明的主要目的是提供一種垃圾信息的檢測方法、設備和存儲介質(zhì)，以解決現(xiàn)有技術中垃圾信息的漏識別率高、假識別率高的問題。

針對上述問題，本發(fā)明提供了一種垃圾信息的檢測方法，包括：

將待檢測信息輸入預先訓練的bert識別模型的編碼層進行編碼，得到所述待檢測信息對應的編碼特征向量；

將所述待檢測信息對應的編碼特征向量輸入預先訓練的bert識別模型的解碼層進行解碼，并利用所述解碼層對應的判決模型，計算所述待檢測信息對應的編碼特征向量對應的概率；

若所述概率大于或等于預設概率，確定所述待檢測信息為垃圾信息。

進一步地，上述所述的垃圾信息的檢測方法中，利用預先訓練的bert識別模型的編碼層對待檢測信息進行編碼，得到所述待檢測信息對應的編碼特征向量之前，還包括：

將獲取的原始樣本數(shù)據(jù)輸入預設的bert預訓練模型中的編碼層進行編碼，得到所述原始樣本數(shù)據(jù)對應的編碼特征向量；

利用所述原始樣本數(shù)據(jù)對應的編碼特征向量對bert預訓練模型中解碼層對應的判決模型進行K折交叉訓練，得到對應于K組驗證數(shù)據(jù)的K組模型參數(shù)；

根據(jù)所述K組模型參數(shù)和K組驗證數(shù)據(jù)，計算對應于K組驗證數(shù)據(jù)的K組誤差數(shù)據(jù)；

根據(jù)所述K組誤差數(shù)據(jù)，確定所述判決模型的優(yōu)化參數(shù)；

根據(jù)所述判決模型的優(yōu)化參數(shù)，對所述判決模型進行優(yōu)化，得到優(yōu)化bert預訓練模型作為所述bert識別模型。

進一步地，上述所述的垃圾信息的檢測方法中，利用所述原始樣本數(shù)據(jù)對應的編碼特征向量對bert預訓練模型中解碼層對應的判決模型進行K折交叉訓練，得到對應于K組驗證數(shù)據(jù)的K組模型參數(shù)，包括：

將所述原始樣本數(shù)據(jù)對應的編碼特征向量劃分為K組，得到K組樣本向量數(shù)據(jù)；

遍歷地將所述K組樣本向量數(shù)據(jù)中的其中一組樣本向量數(shù)據(jù)作為驗證數(shù)據(jù)，并將K-1組樣本向量數(shù)據(jù)作為訓練數(shù)據(jù)，利用訓練數(shù)據(jù)對所述判決模型進行訓練，得到對應于各組驗證數(shù)據(jù)的模型參數(shù)。

進一步地，上述所述的垃圾信息的檢測方法中，根據(jù)所述K組模型參數(shù)和K組驗證數(shù)據(jù)，計算對應于K組驗證數(shù)據(jù)的K組誤差數(shù)據(jù)，包括：

利用K組模型參數(shù)下的判決模型，對K組驗證數(shù)據(jù)進行預測，得到K組驗證數(shù)據(jù)的K組概率；

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于珠海格力電器股份有限公司，未經(jīng)珠海格力電器股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010829688.X/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。