[發明專利]異常網站的識別方法、裝置和異常對抗行為的識別方法有效
| 申請號: | 202010147052.7 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111401416B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 蔣晨之 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V30/418;G06V20/62;G06V10/82;G06F21/64;G06F16/958 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 周達;劉飛 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 異常 網站 識別 方法 裝置 對抗 行為 | ||
本說明書提供了異常網站的識別方法、裝置和異常對抗行為的識別方法。在一個實施例中,異常網站的識別方法通過利用事先訓練好的預設的對抗行為識別模型先從目標網站的網頁的html文本數據、網頁的頁面OCR文本數據和網頁的頁面截圖中,分別提取得到與網頁的html文本對應的第一文本特征、與頁面的OCR文本對應的第二文本特征,和與頁面截圖對應的圖像特征;再綜合根據上述三種不同類型的數據特征,通過識別目標網站的網頁是否存在異常對抗行為,來確定目標網站是否是異常網站。從而能夠較為精準地通過識別異常對抗行為找到可能隱藏有違規信息或敏感信息的異常網站。
技術領域
本說明書屬于互聯網技術領域,尤其涉及異常網站的識別方法、裝置和異常對抗行為的識別方法。
背景技術
在互聯網領域,常常有些違規的異常網站會通過對與網站的網頁數據進行篡改,來隱藏網站上的違規信息或敏感信息,逃避網絡監管。
因此,亟需一種能夠精準地識別出隱藏有違規信息或敏感信息的異常網站。
發明內容
本說明書提供了一種異常網站的識別方法、裝置和異常對抗行為的識別方法,能夠較為精準地通過識別發現網站網頁的異常對抗行為來找到可能隱藏有違規信息或敏感信息的異常網站。
本說明書提供的一種異常網站的識別方法、裝置和異常對抗行為的識別方法是這樣實現的:
一種異常網站的識別方法,包括:獲取目標網站的網頁的html文本數據,和網頁的頁面截圖;從所述網頁的頁面截圖中提取得到頁面的OCR文本數據;利用預設的對抗行為識別模型對所述網頁的html文本數據、頁面的OCR文本數據,和頁面截圖進行識別處理,得到對應的識別處理結果;其中,所述預設的對抗行為識別模型至少包括第一文本特征提取子網絡、第二文本特征提取子網絡和圖像特征提取子網絡,所述第一文本特征提取子網絡用于從網頁的html文本數據中提取出第一文本特征,所述第二文本特征提取子網絡用于從頁面的OCR文本數據中提取出第二文本特征,所述圖像特征提取子網絡用于從所述頁面截圖中提取出圖像特征,所述識別處理結果根據所述第一文本特征、第二文本特征和圖像特征確定;根據所述識別處理結果,確定所述目標網站是否為異常網站。
一種異常對抗行為的識別方法,包括:獲取目標網站的網頁的html文本數據、網頁的頁面截圖和頁面的文本數據;從所述網頁的html文本數據中提取出第一文本特征,從所述頁面的文本數據中提取出第二文本特征,從所述頁面截圖中提取出圖像特征;根據所述第一文本特征、第二文本特征和圖像特征,確定所述目標網站是否存在異常對抗行為。
一種服務器,包括處理器以及用于存儲處理器可執行指令的存儲器,所述處理器執行所述指令時實現獲取目標網站的網頁的html文本數據,和網頁的頁面截圖;從所述網頁的頁面截圖中提取得到頁面的OCR文本數據;利用預設的對抗行為識別模型對所述網頁的html文本數據、頁面的OCR文本數據,和頁面截圖進行識別處理,得到對應的識別處理結果;其中,所述預設的對抗行為識別模型至少包括第一文本特征提取子網絡、第二文本特征提取子網絡和圖像特征提取子網絡,所述第一文本特征提取子網絡用于從網頁的html文本數據中提取出第一文本特征,所述第二文本特征提取子網絡用于從頁面的OCR文本數據中提取出第二文本特征,所述圖像特征提取子網絡用于從所述頁面截圖中提取出圖像特征,所述識別處理結果根據所述第一文本特征、第二文本特征和圖像特征確定;根據所述識別處理結果,確定所述目標網站是否為異常網站。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010147052.7/2.html,轉載請聲明來源鉆瓜專利網。





