[發明專利]一種頁面分類方法、裝置、設備及存儲介質在審
| 申請號: | 202010428417.3 | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111611457A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 萬千 | 申請(專利權)人: | 北京金山云網絡技術有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/957 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;丁蕓 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 頁面 分類 方法 裝置 設備 存儲 介質 | ||
1.一種頁面分類方法,其特征在于,包括:
獲取待分類頁面;
對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據;
將所述待分類特征數據輸入預先訓練得到的聚類模型,進行頁面類別劃分,得到所述待分類頁面的頁面分類結果。
2.根據權利要求1所述的方法,其特征在于,所述聚類模型的訓練過程包括:
建立初始聚類模型;
獲取各樣本頁面;
對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據;
將所述各樣本頁面的樣本特征數據輸入所述初始聚類模型,進行聚類訓練,得到所述聚類模型。
3.根據權利要求2所述的方法,其特征在于,所述對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據的步驟,包括:
分別獲取各樣本頁面的標簽序列中包含的預設特征屬性對應的特征屬性值,得到所有樣本頁面的標簽序列中包含的所述預設特征屬性對應的特征屬性值序列;
基于所述特征屬性值序列和所述各樣本頁面的標簽序列中包含的預設特征屬性對應的特征屬性值,分別生成所述各樣本頁面的樣本特征向量,作為所述各樣本頁面的樣本特征數據;
所述對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據的步驟,包括:
獲取所述待分類頁面的標簽序列中包含的所述預設特征屬性對應的特征屬性值;
基于所述特征屬性值序列和所述待分類頁面的標簽序列中包含的所述預設特征屬性對應的特征屬性值,生成所述待分類頁面的待分類特征向量,作為待分類特征數據。
4.根據權利要求2所述的方法,其特征在于,所述對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據的步驟,包括:
針對多個預設特征屬性中的每個預設特征屬性,分別獲取各樣本頁面的標簽序列中包含的該預設特征屬性對應的特征屬性值,得到所有樣本頁面的標簽序列中包含的該預設特征屬性對應的特征屬性值序列;
基于各預設特征屬性對應的特征屬性值序列和所述各樣本頁面的標簽序列中包含的該預設特征屬性對應的特征屬性值,分別生成所述各樣本頁面的與該預設特征屬性對應的樣本特征向量,組成與該預設特征屬性對應的樣本特征矩陣;
基于預先設定的各預設特征屬性的權重,對各預設特征屬性對應的樣本特征矩陣分別進行降維和拼接操作,得到綜合樣本特征矩陣;其中,所述綜合樣本特征矩陣中的各行向量分別為所述各樣本頁面的樣本特征數據;
所述對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據的步驟,包括:
針對所述多個預設特征屬性中的每個預設特征屬性,獲取所述待分類頁面的標簽序列中包含的該預設特征屬性對應的特征屬性值;
分別生成所述待分類頁面的與各預設特征屬性對應的第一待分類特征向量;
對所述第一待分類特征向量進行降維和拼接操作,得到待分類特征數據。
5.一種頁面分類裝置,其特征在于,包括:
待分類頁面獲取模塊,獲取待分類頁面;
待分類特征數據得到模塊,用于對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據;
分類結果得到模塊,用于將所述待分類特征數據輸入預先訓練得到的聚類模型,進行頁面類別劃分,得到所述待分類頁面的頁面分類結果。
6.根據權利要求5所述的裝置,其特征在于,所述裝置還包括:模型訓練模塊;
所述模型訓練模塊包括:初始模型建立子模塊、樣本頁面獲取子模塊、樣本特征數據得到子模塊和模型得到子模塊;
所述初始模型建立子模塊,用于建立初始聚類模型;
所述樣本頁面獲取子模塊,用于獲取各樣本頁面;
所述樣本特征數據得到子模塊,用于對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據;
所述模型得到子模塊,用于將所述各樣本頁面的樣本特征數據輸入所述初始聚類模型,進行聚類訓練,得到所述聚類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山云網絡技術有限公司,未經北京金山云網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010428417.3/1.html,轉載請聲明來源鉆瓜專利網。





