[發明專利]驗證網頁分類模型的方法及裝置有效
| 申請號: | 201410411722.6 | 申請日: | 2014-08-20 |
| 公開(公告)號: | CN105447018B | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 劉晶 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 倪志華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 網頁分類 網頁 驗證 模型有效性 分類處理 所屬類型 站點 分類 | ||
本發明提供一種驗證網頁分類模型的方法及裝置。方法包括:對待驗證的網頁分類模型所適用的種子站點進行抓取處理,并根據網頁分類模型對抓取處理所抓取的網頁進行分類處理,獲得抓取處理對應的正例比例,抓取處理對應的正例比例是指抓取處理所抓取的網頁中被分類為網頁分類模型所屬類型的網頁數量與抓取處理所抓取到的網頁總數的比值;根據抓取處理對應的正例比例,確定網頁分類模型是否失效。本發明技術方案可以實現對網頁分類模型有效性的驗證。
【技術領域】
本發明涉及互聯網技術領域,尤其涉及一種驗證網頁分類模型的方法及裝置。
【背景技術】
隨著互聯網的高速發展,互聯網上的信息越來越豐富,通過網頁分類可以使用戶快捷方便的找到所需的信息,因此網頁分類得到廣泛的應用。
目前,網頁分類的通用做法是:先標注一批網頁,對這些網頁進行特征提取,通過機器學習等算法對所提取的特征進行訓練得到網頁分類模型,最后基于得到的網頁分類模型對網頁進行分類。
隨著時間的推移,上述網頁分類模型有可能不再適用當前網頁,這會導致網頁分類發生錯誤,因此亟需一種有效驗證網頁分類模型是否仍然有效的方法。
【發明內容】
本發明的多個方面提供一種驗證網頁分類模型的方法及裝置,用以驗證網頁分類模型的有效性。
本發明的一方面,提供一種驗證網頁分類模型的方法,包括:
對待驗證的網頁分類模型所適用的種子站點進行抓取處理,并根據所述網頁分類模型對抓取處理所抓取的網頁進行分類處理,獲得抓取處理對應的正例比例,所述抓取處理對應的正例比例是指抓取處理所抓取的網頁中被分類為所述網頁分類模型所屬類型的網頁數量與抓取處理所抓取到的網頁總數的比值;
根據所述抓取處理對應的正例比例,確定所述網頁分類模型是否失效。
本發明的另一方面,提供一種驗證網頁分類模型的裝置,包括:
抓取模塊,用于對待驗證的網頁分類模型所適用的種子站點進行抓取處理;
獲得模塊,用于根據所述網頁分類模型對抓取處理所抓取的網頁進行分類處理,獲得抓取處理對應的正例比例,所述抓取處理對應的正例比例是指抓取處理所抓取的網頁中被分類為所述網頁分類模型所屬類型的網頁數量與抓取處理所抓取的網頁總數的比值;
第一確定模塊,用于根據所述抓取處理對應的正例比例,確定所述網頁分類模型是否失效。
在本發明技術方案中,對待驗證的網頁分類模型所適用的種子站點進行抓取處理,利用該網頁分類模型對抓取處理所抓取的網頁進行分類處理,獲得抓取處理對應的正例比例,根據抓取處理對應的正例比例,確定網頁分類模型是否失效。其中,抓取處理對應的正例比例是指抓取處理所抓取到的網頁中被分類為網頁分類模型所屬類型的網頁數量與抓取處理所抓取到的網頁總數的比值,該正例比例可以表征網頁分類模型對不同網頁的分類結果的準確度,通過網頁分類模型對種子站點上不同網頁的分類結果的準確度可以確定網頁分類模型是否失效,實現了對網頁分類模型有效性的驗證。
【附圖說明】
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1a為本發明一實施例提供的驗證網頁分類模型的方法的流程示意圖;
圖1b為本發明另一實施例提供的驗證網頁分類模型的方法的流程示意圖;
圖2為本發明又一實施例提供的驗證網頁分類模型的方法的流程示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410411722.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像形成裝置
- 下一篇:識別特征賬號的方法及裝置





