[發(fā)明專利]敏感詞識別方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210086774.5 | 申請日: | 2022-01-25 |
| 公開(公告)號: | CN114707499B | 公開(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計)人: | 馬兆銘;王錚;任華;楊迪;汪少敏 | 申請(專利權(quán))人: | 中國電信股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 北京律智知識產(chǎn)權(quán)代理有限公司 11438 | 代理人: | 孫寶海;闞梓瑄 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 敏感 識別 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開提供了一種敏感詞識別方法、裝置、電子設(shè)備及存儲介質(zhì),其中,敏感詞識別方法包括:從預(yù)設(shè)編碼庫中分別獲取待識別詞對應(yīng)的第一字符串和敏感樣本詞對應(yīng)的第二字符串;對第一字符串和第二字符串分別進行預(yù)處理,得到待識別詞的第一字符向量和敏感樣本詞的第二字符向量;計算第一字符向量和第二字符向量的余弦相似度;根據(jù)計算結(jié)果,確定待識別詞是否為敏感詞。本公開通過獲取與待識別詞和敏感樣本詞有映射關(guān)系的第一字符串和第二字符串,對第一字符串和第二字符串向量化處理,計算第一字符向量和第二字符向量的余弦相似度,根據(jù)得到的余弦相似度確定待識別詞是否為敏感詞,提高了敏感詞識別的準確率和效率。
技術(shù)領(lǐng)域
本公開涉及網(wǎng)絡(luò)信息識別技術(shù)領(lǐng)域,尤其涉及一種敏感詞識別方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著通信網(wǎng)絡(luò)的發(fā)展,人們可以自由的在網(wǎng)絡(luò)上發(fā)表言論,隨之也出現(xiàn)的一些惡意用戶發(fā)表的不良信息。為了躲避網(wǎng)絡(luò)平臺的審查,惡意用戶發(fā)布不良信息的手段變得多樣、形式也變得復(fù)雜,如使用拆分字或形近字表示對應(yīng)的敏感詞,這種發(fā)布不良信息的方式不但增加了網(wǎng)絡(luò)平臺對敏感詞過濾的難度,甚至會造成不良信息的泄露或需要人工進行二次復(fù)檢。
現(xiàn)有技術(shù)通常采用區(qū)位編碼和KMP算法(由D.E.Knuth,J.H.Morris 和V.R.Pratt提出的一種改進的字符串匹配算法)來解決漢字拆分體問題,該方法需對敏感詞進行拆分、窮舉組合,增加了預(yù)處理的復(fù)雜度,該方法對包含正常字體的拆分字組合無法進行精確匹配,抗干擾能力較弱。
基于此,如何提高敏感詞識別的準確率和效率成為了亟需解決的技術(shù)問題。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本公開提供一種敏感詞識別方法、裝置、電子設(shè)備及存儲介質(zhì),至少在一定程度上克服相關(guān)技術(shù)中敏感詞識別的準確率低和效率低的問題。
本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據(jù)本公開的一個方面,提供一種敏感詞識別方法,包括:從預(yù)設(shè)編碼庫中分別獲取待識別詞對應(yīng)的第一字符串和敏感樣本詞對應(yīng)的第二字符串,其中,所述預(yù)設(shè)編碼庫中存儲有具有映射關(guān)系的多個詞與字符串;對所述第一字符串和所述第二字符串分別進行預(yù)處理,得到所述待識別詞的第一字符向量和所述敏感樣本詞的第二字符向量;計算所述第一字符向量和所述第二字符向量的余弦相似度;根據(jù)計算結(jié)果,確定所述待識別詞是否為敏感詞。
在本公開的一個實施例中,對所述第一字符串和所述第二字符串進行預(yù)處理,得到所述待識別詞的第一字符向量和所述敏感樣本詞的第二字符向量,包括:對所述第一字符串和所述第二字符串進行合并與去重處理,得到特征字符串;利用所述特征字符串對所述第一字符串和第二字符串進行向量化處理,得到所述待識別詞的第一字符向量和所述敏感樣本詞的第二字符向量。
在本公開的一個實施例中,利用所述特征字符串對所述第一字符串和第二字符串進行向量化處理,得到所述待識別詞的第一字符向量和所述敏感樣本詞的第二字符向量,包括:利用所述特征字符串中的每個字符在所述第一字符串進行遍歷查找,若在所述第一字符串查找到所述特征字符串中的字符,記為1,否則記為0,得到所述待識別詞的第一字符向量;利用所述特征字符串中的每個字符在所述第二字符串進行遍歷查找,若在所述第二字符串查找到所述特征字符串中的字符,記為1,否則記為0,得到所述敏感樣本詞的第二字符向量。
在本公開的一個實施例中,在從預(yù)設(shè)編碼庫中分別獲取待識別詞對應(yīng)的第一字符串和敏感樣本詞對應(yīng)的第二字符串之前,所述方法還包括:根據(jù)所述待識別詞,從所述預(yù)設(shè)編碼庫中獲取所述待識別詞對應(yīng)的敏感樣本詞,其中,所述預(yù)設(shè)編碼庫還存儲有多個具有映射關(guān)系的敏感詞和敏感詞的變形詞,所述待識別詞屬于敏感詞的變形詞,敏感詞的變形詞為與敏感詞形近或?qū)γ舾性~進行拆分組合后的詞,所述敏感樣本詞屬于敏感詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電信股份有限公司,未經(jīng)中國電信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210086774.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





