[發明專利]一種頁面分類方法、裝置、設備及存儲介質在審
| 申請號: | 202010428417.3 | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111611457A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 萬千 | 申請(專利權)人: | 北京金山云網絡技術有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/957 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;丁蕓 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 頁面 分類 方法 裝置 設備 存儲 介質 | ||
本公開實施例提供了一種頁面分類方法、裝置、設備及存儲介質,涉及云計算領域。本方法包括:獲取待分類頁面;對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據;將所述待分類特征數據輸入預先訓練得到的聚類模型,進行頁面類別劃分,得到所述待分類頁面的頁面分類結果。上述過程中,只需預先對聚類模型進行訓練,無需依賴指紋庫中的分類規則,由于聚類模型的訓練過程可通過機器學習自動完成,無需人工參與。因此,與依靠人工進行分類規則設定、維護和更新的一般分類方法相比,本公開實施例提供的頁面分類方法降低了頁面分類過程中的人工成本。
技術領域
本公開涉及一種頁面分類方法、裝置、設備及存儲介質。
背景技術
為了便于頁面的管理,通常需要對頁面進行類別劃分。
目前,進行頁面分類的一般方法為:對待識別頁面進行指紋識別,得到分類結果,即:獲取待識別頁面中的待識別數據,然后通過正則匹配算法或者信息-摘要算法等,將上述待識別數據與預先建立的指紋庫中的分類規則進行匹配,確定出與待識別頁面匹配成功的目標分類規則,并將與該目標分類規則對應的頁面類型確定為該待識別頁面的頁面類型。
上述分類方法,依賴于預先建立的指紋庫。由于企業業務種類不同,所使用的服務和架構種類較多,導致指紋庫中分類規則的種類和數量也較多,同時,隨著服務和框架版本的不斷更新,分類規則也需要隨之更新,而分類規則的設定、維護和更新主要依靠人工實現,因此,上述頁面分類方法中人工成本較高。
發明內容
本公開實施例的目的在于提供一種頁面分類方法、裝置、設備及存儲介質,以降低頁面分類過程中的人工成本。具體技術方案如下:
第一方面,本公開實施例提供了一種頁面分類方法,所述方法包括:
獲取待分類頁面;
對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據;
將所述待分類特征數據輸入預先訓練得到的聚類模型,進行頁面類別劃分,得到所述待分類頁面的頁面分類結果。
進一步的,所述聚類模型的訓練過程包括:
建立初始聚類模型;
獲取各樣本頁面;
對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據;
將所述各樣本頁面的樣本特征數據輸入所述初始聚類模型,進行聚類訓練,得到所述聚類模型。
進一步的,所述對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據的步驟,包括:
分別獲取各樣本頁面的標簽序列中包含的預設特征屬性對應的特征屬性值,得到所有樣本頁面的標簽序列中包含的所述預設特征屬性對應的特征屬性值序列;
基于所述特征屬性值序列和所述各樣本頁面的標簽序列中包含的預設特征屬性對應的特征屬性值,分別生成所述各樣本頁面的樣本特征向量,作為所述各樣本頁面的樣本特征數據;
所述對所述待分類頁面的頁面結構數據進行特征提取,得到待分類特征數據的步驟,包括:
獲取所述待分類頁面的標簽序列中包含的所述預設特征屬性對應的特征屬性值;
基于所述特征屬性值序列和所述待分類頁面的標簽序列中包含的所述預設特征屬性對應的特征屬性值,生成所述待分類頁面的待分類特征向量,作為待分類特征數據。
進一步的,所述對所述各樣本頁面的頁面結構數據進行特征提取,得到所述各樣本頁面的樣本特征數據的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山云網絡技術有限公司,未經北京金山云網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010428417.3/2.html,轉載請聲明來源鉆瓜專利網。





