[發(fā)明專利]網(wǎng)絡(luò)有害信息關(guān)鍵詞提取方法和有害關(guān)鍵詞庫構(gòu)建方法在審
| 申請?zhí)枺?/td> | 202210290365.7 | 申請日: | 2022-03-23 |
| 公開(公告)號: | CN114781369A | 公開(公告)日: | 2022-07-22 |
| 發(fā)明(設(shè)計)人: | 趙艦波;李帥;劉懷亮;楊斌;張善莊 | 申請(專利權(quán))人: | 西安知了科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/332;G06F16/31 |
| 代理公司: | 西安嘉思特知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61230 | 代理人: | 王海棟 |
| 地址: | 710075 陜西省西*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò) 有害信息 關(guān)鍵詞 提取 方法 有害 關(guān)鍵 詞庫 構(gòu)建 | ||
本發(fā)明公開了一種網(wǎng)絡(luò)有害信息關(guān)鍵詞提取方法和有害關(guān)鍵詞庫構(gòu)建方法,前者包括:從互聯(lián)網(wǎng)上獲取初始文本數(shù)據(jù)信息;將其以分詞為最小單位分級劃分,對每一級劃分出的各單位均進(jìn)行與級別對應(yīng)的屬性標(biāo)準(zhǔn)化描述得到判定詞;利用判定詞的屬性,進(jìn)行判定詞與原始有害關(guān)鍵詞庫的匹配,確定每個判定詞的有害性;利用確定的每個有害分詞,在初始文本數(shù)據(jù)信息中查找到與該有害分詞同時出現(xiàn)且出現(xiàn)次數(shù)達(dá)到預(yù)設(shè)要求的分詞并提取出作為疑似有害分詞。還可利用疑似有害分詞導(dǎo)入詞庫方式,檢驗詞庫性能確定已判有害分詞,利用其和原始有害關(guān)鍵詞庫得到更新的有害關(guān)鍵詞庫。本發(fā)明能對互聯(lián)網(wǎng)環(huán)境中的有害信息詞進(jìn)行準(zhǔn)確識別,構(gòu)建關(guān)鍵詞庫過程收斂快,誤判率低。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)有害信息關(guān)鍵詞提取方法和有害關(guān)鍵詞庫構(gòu)建方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國已經(jīng)全面進(jìn)入信息化時代,信息的存儲成本更低,傳播更加便捷,使得網(wǎng)絡(luò)信息量呈現(xiàn)指數(shù)增長。
豐富的信息在給我們的生活帶來諸多便利的同時,也為有害信息的誕生與傳播提供了渠道。而目前,我國對互聯(lián)網(wǎng)信息的監(jiān)控和對信息的分級還處于發(fā)展階段,官方監(jiān)管系統(tǒng)還存在諸多漏洞。面對互聯(lián)網(wǎng)上的海量數(shù)據(jù),普通居民尤其是缺少社會經(jīng)驗的未成年人,缺乏對信息的辨別能力,容易受到有害信息的影響,大量網(wǎng)絡(luò)有害信息會荼毒居民的日常生活,影響社會的穩(wěn)定性。
因此,如何準(zhǔn)確地對網(wǎng)絡(luò)內(nèi)容中有害信息進(jìn)行關(guān)鍵詞的識別和提取,以輔助官方機(jī)構(gòu)進(jìn)行有害信息巡查,是一個亟待解決的問題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供了一種網(wǎng)絡(luò)有害信息關(guān)鍵詞提取方法和有害關(guān)鍵詞庫構(gòu)建方法。本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實現(xiàn):
第一方面,本發(fā)明實施例提出了一種網(wǎng)絡(luò)有害信息關(guān)鍵詞提取方法,包括:
從互聯(lián)網(wǎng)上獲取初始文本數(shù)據(jù)信息;
將所述初始文本數(shù)據(jù)信息以分詞為最小單位進(jìn)行分級劃分,對每一級劃分出的各單位均進(jìn)行與級別對應(yīng)的屬性標(biāo)準(zhǔn)化描述,并將屬性標(biāo)準(zhǔn)化描述后的分詞作為判定詞;
利用所述判定詞的屬性,進(jìn)行判定詞與原始有害關(guān)鍵詞庫的匹配,利用匹配結(jié)果,確定每個判定詞的有害性;
利用確定的每個有害分詞,在所述初始文本數(shù)據(jù)信息中,查找到與該有害分詞同時出現(xiàn)且出現(xiàn)次數(shù)達(dá)到預(yù)設(shè)要求的分詞并提取出作為疑似有害分詞。
在本發(fā)明的一個實施例中,所述將所述初始文本數(shù)據(jù)信息以分詞為最小單位進(jìn)行分級劃分,對每一級劃分出的各單位均進(jìn)行與級別對應(yīng)的屬性標(biāo)準(zhǔn)化描述,并將屬性標(biāo)準(zhǔn)化描述后的分詞作為判定詞,包括:
將所述初始文本數(shù)據(jù)信息劃分為多個字段,并對每個字段進(jìn)行標(biāo)準(zhǔn)化的字段屬性描述;
將每個字段劃分為多個分詞,并對每個分詞進(jìn)行標(biāo)準(zhǔn)化的分詞屬性描述,將分詞屬性描述后的分詞作為判定詞。
在本發(fā)明的一個實施例中,所述將所述初始文本數(shù)據(jù)信息劃分為多個字段,并對每個字段進(jìn)行標(biāo)準(zhǔn)化的字段屬性描述,包括:
將所述初始文本數(shù)據(jù)信息P劃分為多個字段,得到P={P1,P2,...,PN};其中, N為大于0的自然數(shù);
針對每個字段Pi,將其進(jìn)行標(biāo)準(zhǔn)化的字段屬性描述,得到 Pi=PidPi,WeiPi,ValPi,DetPi;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安知了科技有限公司,未經(jīng)西安知了科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210290365.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 用于阻止連接至因特網(wǎng)服務(wù)提供商網(wǎng)絡(luò)中的有害信息的系統(tǒng)和方法
- 一種基于移動互聯(lián)網(wǎng)的有害信息過濾系統(tǒng)及其方法
- 分布式有害信息管理系統(tǒng)和方法
- 基于互聯(lián)網(wǎng)數(shù)據(jù)來源控制實現(xiàn)有害信息過濾的系統(tǒng)及方法
- 基于移動互聯(lián)網(wǎng)有害信息的地圖區(qū)域化分析系統(tǒng)及其方法
- 一種用于IDC有害信息監(jiān)測平臺的數(shù)據(jù)分析系統(tǒng)
- 一種基于IDC有害信息監(jiān)測系統(tǒng)的樣本訓(xùn)練系統(tǒng)
- 一種基于深度學(xué)習(xí)的多語言有害信息特征智能挖掘方法
- 監(jiān)測藍(lán)牙有害信息的方法及裝置
- 有害信息的碎片內(nèi)容處理方法及裝置
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機(jī)設(shè)備





