[發(fā)明專利]域識(shí)別加主題識(shí)別構(gòu)建機(jī)器學(xué)習(xí)模型檢測(cè)網(wǎng)頁暗鏈的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710853580.2 | 申請(qǐng)日: | 2017-09-20 |
| 公開(公告)號(hào): | CN107566391B | 公開(公告)日: | 2020-04-14 |
| 發(fā)明(設(shè)計(jì))人: | 孟雷 | 申請(qǐng)(專利權(quán))人: | 上海斗象信息科技有限公司 |
| 主分類號(hào): | H04L29/06 | 分類號(hào): | H04L29/06;G06F16/33;G06F16/955;G06N99/00 |
| 代理公司: | 上海翰信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31270 | 代理人: | 張維東 |
| 地址: | 201203 上海市浦東新區(qū)*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 識(shí)別 主題 構(gòu)建 機(jī)器 學(xué)習(xí) 模型 檢測(cè) 網(wǎng)頁 方法 | ||
1.一種域識(shí)別加主題識(shí)別構(gòu)建機(jī)器學(xué)習(xí)模型檢測(cè)網(wǎng)頁暗鏈的方法,其特征在于,包括以下步驟:
步驟1,收集大量網(wǎng)頁源碼作為訓(xùn)練集,所述訓(xùn)練集中包含已被標(biāo)注為包含暗鏈的網(wǎng)頁和標(biāo)注為正常的網(wǎng)頁;
步驟2,提取訓(xùn)練集中網(wǎng)頁源碼和待預(yù)測(cè)網(wǎng)頁源碼中用于構(gòu)建機(jī)器學(xué)習(xí)模型的特征數(shù)據(jù),所述特征數(shù)據(jù)包含風(fēng)險(xiǎn)度、主題異樣度、主題、風(fēng)險(xiǎn)文本向量、風(fēng)險(xiǎn)文本異常概率以及風(fēng)險(xiǎn)文本長(zhǎng)度,
首先,將所述訓(xùn)練集中網(wǎng)頁源碼和待預(yù)測(cè)網(wǎng)頁源碼進(jìn)行可疑域識(shí)別或敏感域識(shí)別得到每個(gè)網(wǎng)頁源碼的風(fēng)險(xiǎn)文本和風(fēng)險(xiǎn)度,進(jìn)行安全域識(shí)別得到安全文本,或者,進(jìn)行全域分析得到每個(gè)網(wǎng)頁源碼的風(fēng)險(xiǎn)文本、風(fēng)險(xiǎn)度和安全文本,根據(jù)所述風(fēng)險(xiǎn)文本和所述安全文本基于主題識(shí)別模型得到每個(gè)網(wǎng)頁源碼的主題異樣度以及主題,
然后,將每個(gè)所述風(fēng)險(xiǎn)文本進(jìn)行處理,并用Doc2vec算法對(duì)處理后的風(fēng)險(xiǎn)文本進(jìn)行訓(xùn)練得到Doc2vec模型,將處理后的風(fēng)險(xiǎn)文本用所述Doc2vec模型處理得到風(fēng)險(xiǎn)文本向量,計(jì)算風(fēng)險(xiǎn)文本異常概率,并計(jì)算出風(fēng)險(xiǎn)文本長(zhǎng)度;
步驟3,將訓(xùn)練集中所有網(wǎng)頁源碼的特征數(shù)據(jù)用機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練得到分類判別模型;
步驟4,將待預(yù)測(cè)網(wǎng)頁源碼的特征數(shù)據(jù)導(dǎo)入所述分類判別模型中,得到待預(yù)測(cè)網(wǎng)頁源碼是否包含暗鏈。
2.根據(jù)權(quán)利要求1所述的域識(shí)別加主題識(shí)別構(gòu)建機(jī)器學(xué)習(xí)模型檢測(cè)網(wǎng)頁暗鏈的方法,其特征在于,還包括:
步驟5,對(duì)分類判別模型識(shí)別的結(jié)果,進(jìn)一步審核,并將已確認(rèn)識(shí)別結(jié)果的待預(yù)測(cè)網(wǎng)頁源碼擴(kuò)充到訓(xùn)練集,定期重新訓(xùn)練模型。
3.根據(jù)權(quán)利要求1所述的域識(shí)別加主題識(shí)別構(gòu)建機(jī)器學(xué)習(xí)模型檢測(cè)網(wǎng)頁暗鏈的方法,其特征在于:
得到每個(gè)網(wǎng)頁源碼的風(fēng)險(xiǎn)度、主題異樣度以及主題采用以下方法:
步驟21,分析網(wǎng)頁源碼,提取網(wǎng)頁源碼中所有可疑域,對(duì)每個(gè)可疑域進(jìn)行風(fēng)險(xiǎn)度識(shí)別并獲取錨文本,
首先,對(duì)每一個(gè)可疑域進(jìn)行風(fēng)險(xiǎn)度識(shí)別,判斷該可疑域是否為風(fēng)險(xiǎn)結(jié)構(gòu),若為風(fēng)險(xiǎn)結(jié)構(gòu),進(jìn)一步判斷該風(fēng)險(xiǎn)結(jié)構(gòu)中的每個(gè)鏈接是否為風(fēng)險(xiǎn)鏈接,提取判斷為風(fēng)險(xiǎn)鏈接的錨文本信息,然后,根據(jù)判斷的每個(gè)可疑域是否為風(fēng)險(xiǎn)結(jié)構(gòu)和風(fēng)險(xiǎn)結(jié)構(gòu)中包含的風(fēng)險(xiǎn)鏈接計(jì)算得到該網(wǎng)頁源碼的風(fēng)險(xiǎn)度,將提取的可疑域中所有風(fēng)險(xiǎn)連接的錨文本信息作為該網(wǎng)頁源碼的風(fēng)險(xiǎn)文本;
步驟22,判斷根據(jù)可疑域得到的該網(wǎng)頁源碼的風(fēng)險(xiǎn)度是否為0,如果該網(wǎng)頁源碼的風(fēng)險(xiǎn)度為0,則進(jìn)行步驟23,如果網(wǎng)頁源碼的風(fēng)險(xiǎn)度不為0,則進(jìn)行步驟25;
步驟23,分析網(wǎng)頁源碼,提取網(wǎng)頁源碼中所有敏感域,對(duì)每個(gè)敏感域進(jìn)行風(fēng)險(xiǎn)度識(shí)別并獲取錨文本,
首先,對(duì)每一個(gè)敏感域進(jìn)行風(fēng)險(xiǎn)度識(shí)別,判斷該敏感域是否為風(fēng)險(xiǎn)結(jié)構(gòu),若為風(fēng)險(xiǎn)結(jié)構(gòu),進(jìn)一步判斷該風(fēng)險(xiǎn)結(jié)構(gòu)中的每個(gè)連接是否為風(fēng)險(xiǎn)鏈接,提取判斷為風(fēng)險(xiǎn)鏈接的錨文本信息,然后,根據(jù)判斷的每個(gè)敏感域是否為風(fēng)險(xiǎn)結(jié)構(gòu)和風(fēng)險(xiǎn)結(jié)構(gòu)中包含的風(fēng)險(xiǎn)鏈接計(jì)算得到該網(wǎng)頁源碼的風(fēng)險(xiǎn)度,將提取的敏感域中所有風(fēng)險(xiǎn)連接的錨文本信息作為該網(wǎng)頁源碼的風(fēng)險(xiǎn)文本;
步驟24,判斷根據(jù)敏感域得到的該網(wǎng)頁源碼的風(fēng)險(xiǎn)度是否為0,如果風(fēng)險(xiǎn)度不等于0,則進(jìn)行步驟25,如果風(fēng)險(xiǎn)度等于0,則進(jìn)行步驟26;
步驟25,分析網(wǎng)頁源碼,提取網(wǎng)頁源碼中安全域,分析每個(gè)所述安全域,提取所述安全域的錨文本信息,將提取的所有的安全域的錨文本信息作為安全文本,
如果根據(jù)敏感域得到的該網(wǎng)頁源碼的風(fēng)險(xiǎn)度不等于0,則還需獲取擴(kuò)展敏感域文本信息,并對(duì)所述擴(kuò)展敏感域文本信息進(jìn)行主題識(shí)別,如果識(shí)別出主題為暗鏈文本常用主題,則提取該擴(kuò)展敏感域文本信息補(bǔ)充到以敏感域識(shí)別得到的風(fēng)險(xiǎn)文本中,如果識(shí)別出主題不是暗鏈文本常用主題,則拋棄該擴(kuò)展敏感域文本信息;
步驟26,對(duì)網(wǎng)頁源碼進(jìn)行全域分析,提取風(fēng)險(xiǎn)文本和安全文本,并計(jì)算風(fēng)險(xiǎn)度;
步驟27,將上述步驟得到的安全文本和風(fēng)險(xiǎn)文本導(dǎo)入主題識(shí)別模型識(shí)別出主題,并計(jì)算出主題異樣度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海斗象信息科技有限公司,未經(jīng)上海斗象信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710853580.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





