[發明專利]一種網頁分類方法、裝置及設備有效
| 申請號: | 201711481103.4 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108304483B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 鄒榮珠 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 分類 方法 裝置 設備 | ||
本發明實施例公開了一種網頁分類方法、裝置及設備,該方法包括:對目標網頁進行網頁分析,得到所述目標網頁上的目標網頁元素以及所述目標網頁元素對應的網頁數據;調用特征提取接口,對所述目標網頁元素對應的網頁數據進行特征提取,得到所述目標網頁元素對應的特征;調用特征向量生成接口,根據提取到的所述目標網頁元素對應的特征生成所述目標網頁元素的特征向量;調用分類算法接口,根據各個目標網頁元素的特征向量對所述目標網頁進行分類,得到所述目標網頁的分類結果。本發明在得到網頁分析結果后,通過調用接口的方式,繼續實現網頁分類功能,最終得到網頁分類結果,無需先后觸發調度兩套程序代碼,提高了實現網頁分類功能的自動化程度。
技術領域
本發明涉及數據處理技術領域,更具體地說,涉及一種網頁分類方法、裝置及設備。
背景技術
隨著網絡的普及,基于網頁的網絡攻擊和惡意行為不斷增多,嚴重威脅用戶的網絡訪問安全。常見的惡意網站行為包括修改主頁、掛馬、釣魚、自動彈出、惡意跳轉等,研究人員通過分析以上惡意網站的行為特征,進一步利用機器學習的方法對網頁進行分類方面的研究,例如利用已訓練好的分類模型對網頁進行分類,從而識別并阻斷惡意網頁。
在對網頁進行分類方面的研究,需要預先對網頁進行分析,以提取網頁中的特定內容,然后利用提取的特定內容進行分類研究。例如,若要利用已訓練好的分類模型對目標網頁進行分類,需要先對目標網頁進行分析,以提取目標網頁中的特定內容,待目標網頁分析完成后,利用已訓練好的分類模型對提取的特定內容進行分類研究,最終得到目標網頁的分類結果。
然而,現有技術中,實現上述網頁分析的過程以及根據網頁分析得到的特定內容進行網頁分類的過程是通過相互獨立的程序代碼實現的,當需要對目標網頁進行分類方面的研究時,需要先調度網頁分析的程序代碼對目標網頁進行分析,得到網頁分析結果后,再調度網頁分類過程的程序代碼對網頁分析結果進行分類方面的處理。可見,為了實現對網頁進行分類的功能不得不先后觸發調度兩套相互獨立的程序代碼,顯然實現過程復雜,自動化程度低。
發明內容
有鑒于此,本發明提供一種網頁分類方法、裝置以及設備。
為實現上述目的,第一方面,本發明提供了一種網頁分類方法,所述方法包括:
對目標網頁進行網頁分析,得到所述目標網頁上的目標網頁元素以及所述目標網頁元素對應的網頁數據;
調用特征提取接口,對所述目標網頁元素對應的網頁數據進行特征提取,得到所述目標網頁元素對應的特征;
調用特征向量生成接口,根據提取到的所述目標網頁元素對應的特征生成所述目標網頁元素的特征向量;
調用分類算法接口,根據各個目標網頁元素的特征向量對所述目標網頁進行分類,得到所述目標網頁的分類結果。
可選的,所述對目標網頁進行網頁分析,得到所述目標網頁上的目標網頁元素以及所述目標網頁元素對應的網頁數據,包括:
將目標網頁的網頁數據與預設篩選條件進行匹配,將匹配成功的預設篩選條件確定為目標條件,并獲得所述目標條件對應的網頁數據;
根據預設篩選條件與所述目標網頁上的網頁元素的對應關系,確定與所述目標條件對應的目標網頁元素;
根據與所述目標條件分別對應的網頁數據和目標網頁元素,確定所述目標網頁上的目標網頁元素對應的網頁數據。
可選的,所述預設篩選條件包括用于描述預設網頁元素的正則表達式。
可選的,在首次調用特征提取接口之前,還包括:對特征提取接口對應的函數進行初始化處理;
和\或,
在首次調用特征向量生成接口之前,還包括:對特征向量生成接口對應的函數進行初始化處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711481103.4/2.html,轉載請聲明來源鉆瓜專利網。





