[發明專利]一種網頁分類方法、裝置及設備有效
| 申請號: | 201711481103.4 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108304483B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 鄒榮珠 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 分類 方法 裝置 設備 | ||
1.一種網頁分類方法,其特征在于,所述方法包括:
對目標網頁進行網頁分析,得到所述目標網頁上的目標網頁元素以及所述目標網頁元素對應的網頁數據;
通過為特征提取接口設置調度的文法產生式,調用特征提取接口,對所述目標網頁元素對應的網頁數據進行特征提取,得到所述目標網頁元素對應的特征;
通過預先為特征向量生成接口設置調度的文法產生式,在得到所述目標網頁元素對應的特征之后,調用特征向量生成接口,根據提取到的所述目標網頁元素對應的特征生成所述目標網頁元素的特征向量;
通過預先為分類算法接口設置調度的文法產生式,在所述目標網頁元素的特征向量生成之后,調用分類算法接口,根據各個目標網頁元素的特征向量對所述目標網頁進行分類,得到所述目標網頁的分類結果。
2.根據權利要求1所述的網頁分類方法,其特征在于,所述對目標網頁進行網頁分析,得到所述目標網頁上的目標網頁元素以及所述目標網頁元素對應的網頁數據,包括:
將目標網頁的網頁數據與預設篩選條件進行匹配,將匹配成功的預設篩選條件確定為目標條件,并獲得所述目標條件對應的網頁數據;
根據預設篩選條件與所述目標網頁上的網頁元素的對應關系,確定與所述目標條件對應的目標網頁元素;
根據與所述目標條件分別對應的網頁數據和目標網頁元素,確定所述目標網頁上的目標網頁元素對應的網頁數據。
3.根據權利要求2所述的網頁分類方法,其特征在于,所述預設篩選條件包括用于描述預設網頁元素的正則表達式。
4.根據權利要求1所述的網頁分類方法,其特征在于,
在首次調用特征提取接口之前,還包括:對特征提取接口對應的函數進行初始化處理;
和\或,
在首次調用特征向量生成接口之前,還包括:對特征向量生成接口對應的函數進行初始化處理;
和\或,
在首次調用分類算法接口之前,還包括:對分類算法接口對應的函數進行初始化處理;
其中,所述初始化處理包括參數配置和資源申請。
5.根據權利要求4所述的網頁分類方法,其特征在于,所述得到所述目標網頁的分類結果之后,還包括:對申請的資源進行釋放。
6.根據權利要求1所述的網頁分類方法,其特征在于,所述方法還包括:
調用分類模型訓練接口,利用各個目標網頁元素的特征向量對預先建立的分類模型進行訓練,得到已訓練的分類模型;
相應的,所述調用分類算法接口,根據各個目標網頁元素的特征向量對所述目標網頁進行分類,得到所述目標網頁的分類結果,包括:
調用分類算法接口,將各個目標網頁元素的特征向量作為已訓練的分類模型的輸入參數,經過所述已訓練的分類模型的處理后得到輸出參數,作為所述目標網頁的分類結果。
7.一種網頁分類裝置,其特征在于,所述裝置包括:
網頁分析模塊,用于對目標網頁進行網頁分析,得到所述目標網頁上的目標網頁元素以及所述目標網頁元素對應的網頁數據;
特征提取模塊,用于通過為特征提取接口設置調度的文法產生式,調用特征提取接口,對所述目標網頁元素對應的網頁數據進行特征提取,得到所述目標網頁元素對應的特征;
向量生成模塊,用于通過預先為特征向量生成接口設置調度的文法產生式,在得到所述目標網頁元素對應的特征之后,調用特征向量生成接口,根據提取到的所述目標網頁元素對應的特征生成所述目標網頁元素的特征向量;
分類模塊,用于通過預先為分類算法接口設置調度的文法產生式,在所述目標網頁元素的特征向量生成之后,調用分類算法接口,根據各個目標網頁元素的特征向量對所述目標網頁進行分類,得到所述目標網頁的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711481103.4/1.html,轉載請聲明來源鉆瓜專利網。





