[發(fā)明專利]風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法、裝置、設(shè)備、介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010311366.6 | 申請(qǐng)日: | 2020-04-20 |
| 公開(kāi)(公告)號(hào): | CN111541683B | 公開(kāi)(公告)日: | 2022-04-19 |
| 發(fā)明(設(shè)計(jì))人: | 宋建昌;范淵;楊勃 | 申請(qǐng)(專利權(quán))人: | 杭州安恒信息技術(shù)股份有限公司 |
| 主分類號(hào): | H04L9/40 | 分類號(hào): | H04L9/40;G06F16/951 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 劉曉菲 |
| 地址: | 310000 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 風(fēng)險(xiǎn) 網(wǎng)站 宣傳 主體 檢測(cè) 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法,其特征在于,包括:
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取目標(biāo)風(fēng)險(xiǎn)網(wǎng)站的網(wǎng)頁(yè)信息;
利用去標(biāo)簽技術(shù),從所述網(wǎng)頁(yè)信息中確定出目標(biāo)文本信息;
利用新詞識(shí)別技術(shù),從所述目標(biāo)文本信息中識(shí)別出新詞,得到新詞集;
根據(jù)所述新詞集和所述目標(biāo)文本信息,確定出宣傳主體清單;
從所述宣傳主體清單中確定出所述目標(biāo)風(fēng)險(xiǎn)網(wǎng)站對(duì)應(yīng)的目標(biāo)宣傳主體;
其中,所述從所述宣傳主體清單中確定出所述目標(biāo)風(fēng)險(xiǎn)網(wǎng)站對(duì)應(yīng)的目標(biāo)宣傳主體,包括:將所述宣傳主體清單與預(yù)設(shè)黑名單詞庫(kù)進(jìn)行比對(duì),得到目標(biāo)宣傳主體清單;利用預(yù)設(shè)公式,確定所述目標(biāo)宣傳主體清單中各個(gè)詞的目標(biāo)分?jǐn)?shù),其中,所述預(yù)設(shè)公式為:score=a*x+b*y+c*z;其中,score表示所述目標(biāo)宣傳主體清單中一個(gè)詞的目標(biāo)分?jǐn)?shù),a、b、c均為預(yù)設(shè)系數(shù),當(dāng)前詞屬于標(biāo)題時(shí)取x=1,當(dāng)前詞不屬于所述標(biāo)題時(shí)取x=0,當(dāng)前詞屬于所述新詞集時(shí)取y=1,當(dāng)前詞不屬于所述新詞集時(shí)取y=0,z表示當(dāng)前詞在所述目標(biāo)文本信息中的重要度值;根據(jù)所述目標(biāo)宣傳主體清單中各個(gè)詞的所述目標(biāo)分?jǐn)?shù),確定出目標(biāo)宣傳主體。
2.根據(jù)權(quán)利要求1所述的風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法,其特征在于,所述利用去標(biāo)簽技術(shù),從所述網(wǎng)頁(yè)信息中確定出目標(biāo)文本信息,包括:
利用XML解析工具,從所述網(wǎng)頁(yè)信息中確定出相應(yīng)的標(biāo)題、網(wǎng)頁(yè)描述以及標(biāo)簽內(nèi)的目標(biāo)信息。
3.根據(jù)權(quán)利要求2所述的風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法,其特征在于,所述利用XML解析工具,從所述網(wǎng)頁(yè)信息中確定出相應(yīng)的標(biāo)題、網(wǎng)頁(yè)描述以及標(biāo)簽內(nèi)的目標(biāo)信息,包括:
利用DOM工具,從所述網(wǎng)頁(yè)信息中確定出相應(yīng)的所述標(biāo)題、所述網(wǎng)頁(yè)描述以及所述標(biāo)簽內(nèi)的目標(biāo)信息。
4.根據(jù)權(quán)利要求3所述的風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法,其特征在于,所述利用DOM工具,從所述網(wǎng)頁(yè)信息中確定出相應(yīng)的所述標(biāo)題、所述網(wǎng)頁(yè)描述以及所述標(biāo)簽內(nèi)的目標(biāo)信息,包括:
利用DOM工具對(duì)所述網(wǎng)頁(yè)信息進(jìn)行結(jié)構(gòu)化;
對(duì)結(jié)構(gòu)化后網(wǎng)頁(yè)信息進(jìn)行XML元素遍歷,以確定出相應(yīng)的所述標(biāo)題以及所述網(wǎng)頁(yè)描述;
對(duì)所述結(jié)構(gòu)化后網(wǎng)頁(yè)信息中的所述標(biāo)簽中的標(biāo)識(shí)進(jìn)行識(shí)別,以確定出所述標(biāo)簽內(nèi)的目標(biāo)信息。
5.根據(jù)權(quán)利要求2所述的風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法,其特征在于,所述根據(jù)所述新詞集和所述目標(biāo)文本信息,確定出宣傳主體清單,包括:
對(duì)所述目標(biāo)文本信息進(jìn)行預(yù)處理,得到目標(biāo)詞集;
利用關(guān)鍵詞提取算法、所述目標(biāo)詞集以及所述新詞集,確定出宣傳主體清單。
6.根據(jù)權(quán)利要求5所述的風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)方法,其特征在于,所述利用關(guān)鍵詞提取算法、所述目標(biāo)詞集以及所述新詞集,確定出宣傳主體清單,包括:
利用TF-IDF算法從所述目標(biāo)詞集中確定出關(guān)鍵詞集;
將所述關(guān)鍵詞集和所述新詞集確定為宣傳主體清單。
7.一種風(fēng)險(xiǎn)網(wǎng)站宣傳主體檢測(cè)裝置,其特征在于,包括:
第一信息確定模塊,用于利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取目標(biāo)風(fēng)險(xiǎn)網(wǎng)站的網(wǎng)頁(yè)信息;
第二信息確定模塊,用于利用去標(biāo)簽技術(shù),從所述網(wǎng)頁(yè)信息中確定出目標(biāo)文本信息;
新詞識(shí)別模塊,用于利用新詞識(shí)別技術(shù),從所述目標(biāo)文本信息中識(shí)別出新詞,得到新詞集;
宣傳主體清單確定模塊,用于根據(jù)所述新詞集和所述目標(biāo)文本信息,確定出宣傳主體清單;
宣傳主體確定模塊,用于從所述宣傳主體清單中確定出所述目標(biāo)風(fēng)險(xiǎn)網(wǎng)站對(duì)應(yīng)的目標(biāo)宣傳主體;
其中,所述宣傳主體確定模塊,用于將所述宣傳主體清單與預(yù)設(shè)黑名單詞庫(kù)進(jìn)行比對(duì),得到目標(biāo)宣傳主體清單;利用預(yù)設(shè)公式,確定所述目標(biāo)宣傳主體清單中各個(gè)詞的目標(biāo)分?jǐn)?shù),其中,所述預(yù)設(shè)公式為:score=a*x+b*y+c*z;其中,score表示所述目標(biāo)宣傳主體清單中一個(gè)詞的目標(biāo)分?jǐn)?shù),a、b、c均為預(yù)設(shè)系數(shù),當(dāng)前詞屬于標(biāo)題時(shí)取x=1,當(dāng)前詞不屬于所述標(biāo)題時(shí)取x=0,當(dāng)前詞屬于所述新詞集時(shí)取y=1,當(dāng)前詞不屬于所述新詞集時(shí)取y=0,z表示當(dāng)前詞在所述目標(biāo)文本信息中的重要度值;根據(jù)所述目標(biāo)宣傳主體清單中各個(gè)詞的所述目標(biāo)分?jǐn)?shù),確定出目標(biāo)宣傳主體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州安恒信息技術(shù)股份有限公司,未經(jīng)杭州安恒信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010311366.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 風(fēng)險(xiǎn)監(jiān)視裝置、風(fēng)險(xiǎn)監(jiān)視系統(tǒng)、風(fēng)險(xiǎn)監(jiān)視方法
- 風(fēng)險(xiǎn)控制方法及風(fēng)險(xiǎn)控制裝置
- 風(fēng)險(xiǎn)分層
- 風(fēng)險(xiǎn)分層
- 風(fēng)險(xiǎn)判定裝置、風(fēng)險(xiǎn)判定方法以及風(fēng)險(xiǎn)判定程序
- 風(fēng)險(xiǎn)評(píng)價(jià)系統(tǒng)以及風(fēng)險(xiǎn)評(píng)價(jià)方法
- 風(fēng)險(xiǎn)管理裝置、風(fēng)險(xiǎn)管理方法以及風(fēng)險(xiǎn)管理程序
- 風(fēng)險(xiǎn)測(cè)算方法和風(fēng)險(xiǎn)測(cè)算系統(tǒng)
- 風(fēng)險(xiǎn)評(píng)估方法及風(fēng)險(xiǎn)評(píng)估裝置
- 風(fēng)險(xiǎn)評(píng)估方法及風(fēng)險(xiǎn)評(píng)估裝置
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測(cè)方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識(shí)別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評(píng)估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 一種網(wǎng)站開(kāi)發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識(shí)別方法
- 網(wǎng)站應(yīng)用框架指紋識(shí)別的方法、設(shè)備、裝置及介質(zhì)





