[發明專利]網頁分類方法、裝置及計算機可讀存儲介質在審
| 申請號: | 201810694720.0 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN109062972A | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 吳壯偉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 待分類網頁 核心關鍵詞 網頁分類 網頁鏈接 網頁源碼 種子網頁 詞集合 可用 指向 計算機可讀存儲介質 文本 篩選 存儲介質 分類結果 噪音過濾 自動分類 詞向量 停用詞 分詞 集合 | ||
1.一種網頁分類方法,應用于電子裝置,其特征在于,該方法包括:
獲取步驟:從種子網頁中獲取網頁鏈接,從所述網頁鏈接指向的待分類網頁中獲取網頁源碼;
預處理步驟:對所述網頁源碼進行噪音過濾,獲取每個待分類網頁的篩選文本,對該篩選文本進行分詞和去停用詞處理,得到每個待分類網頁的可用詞集合;
提取步驟:從所述可用詞集合中提取核心關鍵詞,得到每個待分類網頁的核心關鍵詞集合;
計算步驟:計算每個待分類網頁的核心關鍵詞詞向量的平均值,將該平均值輸入預先訓練得到的網頁分類模型,得到每個待分類網頁的分類結果;及
循環步驟:將獲得分類結果的待分類網頁作為新的種子網頁,返回獲取步驟。
2.如權利要求1所述的網頁分類方法,其特征在于,所述網頁分類模型的訓練步驟包括:
為預先選取的預設數量的種子網頁標注網頁類型;
對所述種子網頁的網頁源碼進行預處理,得到每個種子網頁的可用詞集合;
從所述可用詞集合中提取核心關鍵詞,得到每個種子網頁的核心關鍵詞集合;
計算每個種子網頁的核心關鍵詞詞向量的平均值;及
利用每個種子網頁的核心關鍵詞詞向量的平均值和對應的網頁類型標注對神經網絡模型進行訓練,得到網頁分類模型。
3.如權利要求1或2所述的網頁分類方法,其特征在于,所述篩選文本包括網頁源碼中標題標簽、關鍵詞標簽和描述標簽中的文本部分,所述分詞處理采用的分詞方法包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法中的一種或幾種。
4.如權利要求2所述的網頁分類方法,其特征在于,該方法還包括:
設置所述循環步驟的執行次數,當滿足設置要求時,終止所述循環步驟。
5.如權利要求2所述的網頁分類方法,其特征在于,該方法還包括:
將具有網頁類型標注的種子網頁和獲得分類結果的待分類網頁對應的網頁鏈接存儲至數據庫;
當獲取的網頁鏈接已在所述數據庫中存在時,終止針對該網頁鏈接的后續操作。
6.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中包括網頁分類程序,該網頁分類程序被所述處理器執行時實現如下步驟:
獲取步驟:從種子網頁中獲取網頁鏈接,從所述網頁鏈接指向的待分類網頁中獲取網頁源碼;
預處理步驟:對所述網頁源碼進行噪音過濾,獲取每個待分類網頁的篩選文本,對該篩選文本進行分詞和去停用詞處理,得到每個待分類網頁的可用詞集合;
提取步驟:從所述可用詞集合中提取核心關鍵詞,得到每個待分類網頁的核心關鍵詞集合;
計算步驟:計算每個待分類網頁的核心關鍵詞詞向量的平均值,將該平均值輸入預先訓練得到的網頁分類模型,得到每個待分類網頁的分類結果;及
循環步驟:將獲得分類結果的待分類網頁作為新的種子網頁,返回獲取步驟。
7.如權利要求6所述的電子裝置,其特征在于,所述網頁分類模型的訓練步驟包括:
為預先選取的預設數量的種子網頁標注網頁類型;
對所述種子網頁的網頁源碼進行預處理,得到每個種子網頁的可用詞集合;
從所述可用詞集合中提取核心關鍵詞,得到每個種子網頁的核心關鍵詞集合;
計算每個種子網頁的核心關鍵詞詞向量的平均值;及
利用每個種子網頁的核心關鍵詞詞向量的平均值和對應的網頁類型標注對神經網絡模型進行訓練,得到網頁分類模型。
8.如權利要求6或7所述的電子裝置,其特征在于,所述篩選文本包括網頁源碼中標題標簽、關鍵詞標簽和描述標簽中的文本部分,所述分詞處理采用的分詞方法包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法中的一種或幾種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810694720.0/1.html,轉載請聲明來源鉆瓜專利網。





