[發(fā)明專利]垃圾信息的檢測方法、設備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010829688.X | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111950268A | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設計)人: | 彭丁聰 | 申請(專利權)人: | 珠海格力電器股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06N3/08 |
| 代理公司: | 北京聿宏知識產(chǎn)權代理有限公司 11372 | 代理人: | 吳大建;李愛軍 |
| 地址: | 519000*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾 信息 檢測 方法 設備 存儲 介質(zhì) | ||
本發(fā)明公開了一種垃圾信息的檢測方法、設備和存儲介質(zhì),方法包括:將待檢測信息輸入預先訓練的bert識別模型的編碼層進行編碼,得到待檢測信息對應的編碼特征向量;將待檢測信息對應的編碼特征向量輸入預先訓練的bert識別模型的解碼層進行解碼,并利用解碼層對應的判決模型,計算待檢測信息對應的編碼特征向量對應的概率;若概率大于或等于預設概率,確定待檢測信息為垃圾信息。本發(fā)明的技術方案,能夠?qū)崿F(xiàn)了單個字或詞與待檢測信息的上下文建立很好地編碼聯(lián)系,提高了單個字或詞的檢測結果的準確性,進而能夠降低垃圾信息的漏識別率、假識別率。
技術領域
本發(fā)明屬于信息安全技術領域,具體涉及一種垃圾信息的檢測方法、設備和存儲介質(zhì)。
背景技術
垃圾短信和垃圾郵件等垃圾信息困擾著大部分互聯(lián)網(wǎng)用戶群體?,F(xiàn)有技術中,通常使用關鍵字匹配或者樸素貝葉斯分類方法對垃圾信息進行檢測,這種檢測方法雖然識別率較高,但考慮的僅是單個字或詞對檢測結果的影響,不涉及句子之間和上下文意思的理解,因此對一些金融詐騙、釣魚郵件等故意逃避使用特定關鍵字的信息,攔截效果不是很好,存在漏識別問題;而對一些運營推廣、客戶營銷、賬單通知等含有特定關鍵字的信息又存在假識別的問題。
因此,如何降低垃圾信息的漏識別率、假識別率是本領域技術人員亟待解決的技術問題。
發(fā)明內(nèi)容
本發(fā)明的主要目的是提供一種垃圾信息的檢測方法、設備和存儲介質(zhì),以解決現(xiàn)有技術中垃圾信息的漏識別率高、假識別率高的問題。
針對上述問題,本發(fā)明提供了一種垃圾信息的檢測方法,包括:
將待檢測信息輸入預先訓練的bert識別模型的編碼層進行編碼,得到所述待檢測信息對應的編碼特征向量;
將所述待檢測信息對應的編碼特征向量輸入預先訓練的bert識別模型的解碼層進行解碼,并利用所述解碼層對應的判決模型,計算所述待檢測信息對應的編碼特征向量對應的概率;
若所述概率大于或等于預設概率,確定所述待檢測信息為垃圾信息。
進一步地,上述所述的垃圾信息的檢測方法中,利用預先訓練的bert識別模型的編碼層對待檢測信息進行編碼,得到所述待檢測信息對應的編碼特征向量之前,還包括:
將獲取的原始樣本數(shù)據(jù)輸入預設的bert預訓練模型中的編碼層進行編碼,得到所述原始樣本數(shù)據(jù)對應的編碼特征向量;
利用所述原始樣本數(shù)據(jù)對應的編碼特征向量對bert預訓練模型中解碼層對應的判決模型進行K折交叉訓練,得到對應于K組驗證數(shù)據(jù)的K組模型參數(shù);
根據(jù)所述K組模型參數(shù)和K組驗證數(shù)據(jù),計算對應于K組驗證數(shù)據(jù)的K組誤差數(shù)據(jù);
根據(jù)所述K組誤差數(shù)據(jù),確定所述判決模型的優(yōu)化參數(shù);
根據(jù)所述判決模型的優(yōu)化參數(shù),對所述判決模型進行優(yōu)化,得到優(yōu)化bert預訓練模型作為所述bert識別模型。
進一步地,上述所述的垃圾信息的檢測方法中,利用所述原始樣本數(shù)據(jù)對應的編碼特征向量對bert預訓練模型中解碼層對應的判決模型進行K折交叉訓練,得到對應于K組驗證數(shù)據(jù)的K組模型參數(shù),包括:
將所述原始樣本數(shù)據(jù)對應的編碼特征向量劃分為K組,得到K組樣本向量數(shù)據(jù);
遍歷地將所述K組樣本向量數(shù)據(jù)中的其中一組樣本向量數(shù)據(jù)作為驗證數(shù)據(jù),并將K-1組樣本向量數(shù)據(jù)作為訓練數(shù)據(jù),利用訓練數(shù)據(jù)對所述判決模型進行訓練,得到對應于各組驗證數(shù)據(jù)的模型參數(shù)。
進一步地,上述所述的垃圾信息的檢測方法中,根據(jù)所述K組模型參數(shù)和K組驗證數(shù)據(jù),計算對應于K組驗證數(shù)據(jù)的K組誤差數(shù)據(jù),包括:
利用K組模型參數(shù)下的判決模型,對K組驗證數(shù)據(jù)進行預測,得到K組驗證數(shù)據(jù)的K組概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海格力電器股份有限公司,未經(jīng)珠海格力電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010829688.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





