[發(fā)明專利]一種網(wǎng)頁(yè)敏感詞檢測(cè)方法、檢測(cè)系統(tǒng)及相關(guān)裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010548352.6 | 申請(qǐng)日: | 2020-06-16 |
| 公開(公告)號(hào): | CN111680128A | 公開(公告)日: | 2020-09-18 |
| 發(fā)明(設(shè)計(jì))人: | 徐凱熙;范淵 | 申請(qǐng)(專利權(quán))人: | 杭州安恒信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/953;G06F40/284 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 高勇 |
| 地址: | 310000 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁(yè) 敏感 檢測(cè) 方法 系統(tǒng) 相關(guān) 裝置 | ||
1.一種網(wǎng)頁(yè)敏感詞檢測(cè)方法,其特征在于,包括:
獲取網(wǎng)頁(yè)數(shù)據(jù)和檢測(cè)需求;
對(duì)所述網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,得到文本關(guān)鍵詞;
利用基于所述檢測(cè)需求的AC自動(dòng)機(jī)對(duì)所述文本關(guān)鍵詞進(jìn)行敏感詞檢測(cè),得到敏感詞檢測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)敏感詞檢測(cè)方法,其特征在于,利用基于所述檢測(cè)需求的AC自動(dòng)機(jī)對(duì)所述文本關(guān)鍵詞進(jìn)行敏感詞檢測(cè)之前,還包括:
基于所述檢測(cè)需求生成AC自動(dòng)機(jī)。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁(yè)敏感詞檢測(cè)方法,其特征在于,基于所述檢測(cè)需求生成AC自動(dòng)機(jī)包括:
根據(jù)所述檢測(cè)需求確定敏感詞組,并生成所述敏感詞組對(duì)應(yīng)的字典樹;
利用雙數(shù)組字典樹生成算法將所述字典樹中的每個(gè)狀態(tài)映射到雙數(shù)組,生成雙數(shù)組字典樹,并記錄所述狀態(tài)在雙數(shù)組中的下標(biāo);
根據(jù)所述雙數(shù)組字典樹生成AC自動(dòng)機(jī),所述AC自動(dòng)機(jī)中fail表中存有所述下標(biāo)。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)敏感詞檢測(cè)方法,其特征在于,對(duì)所述網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,得到文本關(guān)鍵詞包括:
對(duì)所述網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本分割,得到最短詞語(yǔ)集合;
利用Textrank將所述最短詞語(yǔ)集合作為節(jié)點(diǎn)構(gòu)建網(wǎng)絡(luò),利用PageRank迭代計(jì)算所述網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的rank值,對(duì)所述rank值排序得到所述文本關(guān)鍵詞。
5.根據(jù)權(quán)利要求4所述的網(wǎng)頁(yè)敏感詞檢測(cè)方法,其特征在于,對(duì)所述網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本分割,得到最短詞語(yǔ)集合包括:
利用基于HanLP分詞算法的詞法分析器對(duì)所述網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本分割,得到最短詞語(yǔ)集合。
6.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)敏感詞檢測(cè)方法,其特征在于,得到敏感詞檢測(cè)結(jié)果之后,還包括:
根據(jù)所述文本關(guān)鍵詞所屬類別過濾所述敏感詞檢測(cè)結(jié)果中的誤報(bào)結(jié)果,得到精確檢測(cè)結(jié)果。
7.一種網(wǎng)頁(yè)敏感詞檢測(cè)系統(tǒng),其特征在于,包括:
獲取模塊,用于獲取網(wǎng)頁(yè)數(shù)據(jù)和檢測(cè)需求;
文本提取模塊,用于對(duì)所述網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文本提取,得到文本關(guān)鍵詞;
檢測(cè)模塊,用于利用基于所述檢測(cè)需求的AC自動(dòng)機(jī)對(duì)所述文本關(guān)鍵詞進(jìn)行敏感詞檢測(cè),得到敏感詞檢測(cè)結(jié)果。
8.根據(jù)權(quán)利要求7所述的網(wǎng)頁(yè)敏感詞檢測(cè)系統(tǒng),其特征在于,還包括:
AC自動(dòng)機(jī)生成模塊,用于基于所述檢測(cè)需求生成AC自動(dòng)機(jī)。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的方法的步驟。
10.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存有計(jì)算機(jī)程序,所述處理器調(diào)用所述存儲(chǔ)器中的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州安恒信息技術(shù)股份有限公司,未經(jīng)杭州安恒信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010548352.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 可測(cè)量片外橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置位置軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵外側(cè)軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 三軸硅微加速度計(jì)
- 三軸硅微加速度計(jì)
- 一種用于大噸位傳感器的自定位應(yīng)變計(jì)
- 用于簡(jiǎn)化懸臂梁傳感器的全橋箔式電阻應(yīng)變計(jì)
- 一種敏感文件管理方法
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





