[發(fā)明專利]網(wǎng)絡不良數(shù)據(jù)監(jiān)控方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010119614.7 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111400439A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設計)人: | 張國輝;錢柏丞 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/958;G06F40/289;G06F40/30 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網(wǎng)絡 不良 數(shù)據(jù) 監(jiān)控 方法 裝置 存儲 介質(zhì) | ||
本發(fā)明涉及網(wǎng)絡數(shù)據(jù)監(jiān)控技術(shù)領域,本發(fā)明提供一種網(wǎng)絡不良數(shù)據(jù)監(jiān)控方法、裝置及計算機可讀存儲介質(zhì),其中的方法包括:對目標文本進行分詞處理;將分詞集合中的詞語與預設不良詞匯對照表比對,從分詞集合中篩選出不良詞語,將不良詞語加載到第一不良詞匯表;通過詞語相似度計算公式,計算出每個待選詞語的相似度均值,將相似度均值大于預設相似度閾值的待選詞語加載到第一不良詞匯表;通過情感分析算法,篩除不滿足預設不良詞情感趨向規(guī)則的詞語;通過詞語位置結(jié)構(gòu)法,篩除不符合不良詞匯語句位置結(jié)構(gòu)的詞語。本發(fā)明能夠更加精準的發(fā)現(xiàn)未登錄的不良詞匯,與現(xiàn)有技術(shù)相比較,收錄的不良詞匯的精確度和準確度更高。
技術(shù)領域
本發(fā)明涉及網(wǎng)絡數(shù)據(jù)監(jiān)控技術(shù)領域,尤其涉及一種網(wǎng)絡不良數(shù)據(jù)監(jiān)控方法、裝置及計算機可讀存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,信息爆炸的時代早已來臨。網(wǎng)絡文本作為互聯(lián)網(wǎng)信息傳播的主要載體也得到了飛速的發(fā)展,網(wǎng)絡語言日新月異,同時網(wǎng)絡語言的低俗化日益嚴重,針對網(wǎng)絡不良詞匯的監(jiān)控和發(fā)現(xiàn)面臨極大的挑戰(zhàn)。
隨著互聯(lián)網(wǎng)的普遍,各種網(wǎng)絡論壇、網(wǎng)絡文章和網(wǎng)絡媒體等不斷出現(xiàn),每天都有大量的文本產(chǎn)生,在網(wǎng)絡上存在大量的不良詞匯。網(wǎng)絡不良詞匯監(jiān)控的最大難點在于網(wǎng)絡語言更新的速度較快、詞匯變化多樣,且無明顯規(guī)律。很多檢測模型不具有針對未登錄詞的自動識別功能,或者僅依賴簡單的詞語之間的相似性計算收集未登錄詞。這也導致了隨著時間的發(fā)展,未被系統(tǒng)收錄的未登錄詞越來越多,或者已經(jīng)收錄的未登錄詞的質(zhì)量越來越差。這樣就會導致現(xiàn)有的監(jiān)控模型的精度下降,效果大打折扣,不能精準的發(fā)現(xiàn)未登錄的不良詞匯。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種網(wǎng)絡不良數(shù)據(jù)監(jiān)控方法、裝置及計算機可讀存儲介質(zhì),其主要目的在于,通過對目標文本進行分詞處理后將每個分詞與預設的不良詞匯對照表中的不良詞匯進行比對,將相同的不良詞語加載到第一不良詞匯表,由于不良詞匯對照表中的不良詞匯有限,可能存在與不良詞語相似的不良詞存在,所以通過詞語相似度計算公式對目標文本中的分詞再次進行計算,將符合預設相似度閾值范圍的詞語加載到第一不良詞匯表中,由于相似度計算發(fā)現(xiàn)的不良詞并非是一定的,所以再通過情感分析算法和詞語位置結(jié)構(gòu)法對第一不良詞匯表中非不良詞進行篩除處理,最后輸出第三不良詞匯表。能夠更加精準的發(fā)現(xiàn)未登錄的不良詞匯,與現(xiàn)有技術(shù)相比較,收錄的不良詞匯的精確度更高,提高了準確度。
為實現(xiàn)上述目的,本發(fā)明提供一種網(wǎng)絡不良數(shù)據(jù)監(jiān)控方法,該方法包括:
對目標文本進行分詞處理,得到分詞集合;
將所述分詞集合中的詞語與預設不良詞匯對照表比對,從所述分詞集合中篩選出不良詞語,將所述不良詞語加載到第一不良詞匯表,將所述分詞集合中篩選后的剩余詞語作為待選詞語;
通過詞語相似度計算公式,計算出每個所述待選詞語與預設不良詞匯對照表中詞語的相似度均值,將所述相似度均值大于預設相似度閾值的待選詞語加載到所述第一不良詞匯表;
通過情感分析算法,從所述第一不良詞匯表中篩除不滿足預設不良詞情感趨向規(guī)則的詞語,得到第二不良詞匯表;
通過詞語位置結(jié)構(gòu)法,從所述第二不良詞匯表中篩除不符合不良詞匯語句位置結(jié)構(gòu)的詞語,得到第三不良詞匯表并輸出。
優(yōu)選地,通過詞語相似度計算公式,計算出每個待選詞語與預設不良詞匯對照表中詞語的相似度均值的步驟包括:
對每個所述待選詞語進行向量化處理,得到待選詞語的詞向量;
將每個待選詞語的詞向量分別與預設的不良詞的詞向量集合中的不良詞向量通過詞語相似度計算公式進行相似度計算,得到N個相似度值,其中,所述預設的不良詞的詞向量集合是通過將所述預設不良詞匯對照表中詞語進行向量化處理得到的詞向量集合;
根據(jù)N個相似度值,獲得所述待選詞語與預設不良詞匯對照表中詞語的相似度均值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010119614.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





