[發明專利]網絡有害信息關鍵詞提取方法和有害關鍵詞庫構建方法在審
| 申請號: | 202210290365.7 | 申請日: | 2022-03-23 |
| 公開(公告)號: | CN114781369A | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 趙艦波;李帥;劉懷亮;楊斌;張善莊 | 申請(專利權)人: | 西安知了科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/332;G06F16/31 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 王海棟 |
| 地址: | 710075 陜西省西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 有害信息 關鍵詞 提取 方法 有害 關鍵 詞庫 構建 | ||
1.一種網絡有害信息關鍵詞提取方法,其特征在于,包括:
從互聯網上獲取初始文本數據信息;
將所述初始文本數據信息以分詞為最小單位進行分級劃分,對每一級劃分出的各單位均進行與級別對應的屬性標準化描述,并將屬性標準化描述后的分詞作為判定詞;
利用所述判定詞的屬性,進行判定詞與原始有害關鍵詞庫的匹配,利用匹配結果,確定每個判定詞的有害性;
利用確定的每個有害分詞,在所述初始文本數據信息中,查找到與該有害分詞同時出現且出現次數達到預設要求的分詞并提取出作為疑似有害分詞。
2.根據權利要求1所述的網絡有害信息關鍵詞提取方法,其特征在于,所述將所述初始文本數據信息以分詞為最小單位進行分級劃分,對每一級劃分出的各單位均進行與級別對應的屬性標準化描述,并將屬性標準化描述后的分詞作為判定詞,包括:
將所述初始文本數據信息劃分為多個字段,并對每個字段進行標準化的字段屬性描述;
將每個字段劃分為多個分詞,并對每個分詞進行標準化的分詞屬性描述,將分詞屬性描述后的分詞作為判定詞。
3.根據權利要求2所述的網絡有害信息關鍵詞提取方法,其特征在于,所述將所述初始文本數據信息劃分為多個字段,并對每個字段進行標準化的字段屬性描述,包括:
將所述初始文本數據信息P劃分為多個字段,得到P={P1,P2,...,PN};其中,N為大于0的自然數;
針對每個字段Pi,將其進行標準化的字段屬性描述,得到Pi=PidPi,WeiPi,ValPi,DetPi;
其中,i∈[1,N];PidPi表示字段ID編號;WeiPi表示字段權重;ValPi表示字段價值量,用于衡量該字段含有的有害信息數量;DetPi表示字段信息內容,包括該字段的文本內容、字段長度LPi和該字段細分的多個分詞的屬性信息。
4.根據權利要求2或3所述的網絡有害信息關鍵詞提取方法,其特征在于,所述將每個字段劃分為多個分詞,并對每個分詞進行標準化的分詞屬性描述,包括:
將每個字段劃分為多個分詞,得到該字段的分詞數組V={V1,V2,...,VM};其中,M為大于0的自然數;
針對所述分詞數組中的每個分詞Vj,將其進行標準化的分詞屬性描述,得到Vj=VidVj,WeiVj,ValVj,DetVj,RelVj;
其中,j∈[1,M];VidVj表示分詞ID編號;WeiVj表示分詞權重;ValVj表示用于衡量分詞有害性的分詞價值量;DetVj表示分詞信息內容,包括分詞的文本內容和分詞長度LVj;RelVj表示分詞關聯性,含有與該分詞有關聯的其他分詞的地址信息。
5.根據權利要求4所述的網絡有害信息關鍵詞提取方法,其特征在于,所述利用所述判定詞的屬性,進行判定詞與原始有害關鍵詞庫的匹配,利用匹配結果,確定每個判定詞的有害性,包括:
針對每個判定詞,基于該判定詞的分詞信息內容,在所述原始有害關鍵詞庫中查找是否有包含該判定詞的有害信息內容;若有,表示匹配結果為成功,則確定該判定詞為有害分詞,并將該判定詞的分詞價值量賦值為1;否無,表示匹配結果為未成功,則確定該判定詞為無害分詞,并將該判定詞的分詞價值量賦值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安知了科技有限公司,未經西安知了科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210290365.7/1.html,轉載請聲明來源鉆瓜專利網。





