[發(fā)明專利]驗證網頁分類模型的方法及裝置有效
| 申請?zhí)枺?/td> | 201410411722.6 | 申請日: | 2014-08-20 |
| 公開(公告)號: | CN105447018B | 公開(公告)日: | 2019-06-28 |
| 發(fā)明(設計)人: | 劉晶 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京鴻德海業(yè)知識產權代理事務所(普通合伙) 11412 | 代理人: | 倪志華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 網頁分類 網頁 驗證 模型有效性 分類處理 所屬類型 站點 分類 | ||
1.一種驗證網頁分類模型的方法,其特征在于,包括:
對待驗證的網頁分類模型所適用的種子站點進行至少兩次抓取處理,并根據(jù)所述網頁分類模型對每次抓取處理所抓取的網頁進行分類處理,獲得每次抓取處理對應的正例比例,所述每次抓取處理對應的正例比例是指每次抓取處理所抓取的網頁中被分類為所述網頁分類模型所屬類型的網頁數(shù)量與抓取處理所抓取的網頁總數(shù)的比值;
根據(jù)所述至少兩次抓取處理對應的正例比例之間的差值,確定所述網頁分類模型是否失效。
2.根據(jù)權利要求1所述的方法,其特征在于,所述對待驗證的網頁分類模型所適用的種子站點進行至少兩次抓取處理,并根據(jù)所述網頁分類模型對每次抓取處理所抓取的網頁進行分類處理,獲得每次抓取處理對應的正例比例,包括:
在第一時間對所述種子站點進行第一次抓取處理,并根據(jù)所述網頁分類模型對所述第一次抓取處理所抓取的網頁進行分類處理,獲得第一正例比例;
在第二時間對所述種子站點進行第二次抓取處理,并根據(jù)所述網頁分類模型對所述第二次抓取處理所抓取的網頁進行分類處理,獲得第二正例比例;
所述根據(jù)所述至少兩次抓取處理對應的正例比例之間的差值,確定所述網頁分類模型是否失效,包括:
將所述第一正例比例和所述第二正例比例的差值與預設的比例閾值進行比較;
如果所述差值大于所述比例閾值,確定所述網頁分類模型失效;
如果所述差值小于或等于所述比例閾值,確定所述網頁分類模型有效。
3.根據(jù)權利要求1所述的方法,其特征在于,所述對待驗證的網頁分類模型所適用的種子站點進行至少兩次抓取處理,并根據(jù)所述網頁分類模型對每次抓取處理所抓取的網頁進行分類處理,獲得每次抓取處理對應的正例比例,包括:
定期對所述種子站點進行抓取處理,根據(jù)所述網頁分類模型對當前抓取處理所抓取的網頁進行分類處理,獲得當前抓取處理對應的正例比例;
所述根據(jù)所述至少兩次抓取處理對應的正例比例之間的差值,確定所述網頁分類模型是否失效,包括:
將當前抓取處理對應的正例比例和前一次抓取處理對應的正例比例的差值與預設的比例閾值進行比較;
如果所述差值大于所述比例閾值,確定所述網頁分類模型失效;
如果所述差值小于或等于所述比例閾值,確定所述網頁分類模型有效。
4.根據(jù)權利要求1或2或3所述的方法,其特征在于,所述對待驗證的網頁分類模型所適用的種子站點進行至少兩次抓取處理之前,還包括:
確定使用所述網頁分類模型對輸入網頁進行分類的程序未發(fā)生變化;或者
在確定使用所述網頁分類模型對輸入網頁進行分類的程序發(fā)生變化時,確定所述網頁分類模型對已標注類型的網頁進行分類處理的分類結果與所述已標注類型的網頁的標注類型一致。
5.根據(jù)權利要求1或2或3所述的方法,其特征在于,還包括:
在確定所述網頁分類模型有效后,確定使用所述網頁分類模型對輸入網頁進行分類的程序是否發(fā)生變化;
在確定使用所述網頁分類模型對輸入網頁進行分類的程序發(fā)生變化時,則根據(jù)所述網頁分類模型對已標注類型的網頁進行分類處理;
如果分類結果與所述已標注類型的網頁的標注類型一致,確定所述網頁分類模型有效;
如果所述分類結果與所述已標注類型的網頁的標注類型不一致,確定所述網頁分類模型失效。
6.一種驗證網頁分類模型的裝置,其特征在于,包括:
抓取模塊,用于對待驗證的網頁分類模型所適用的種子站點進行至少兩次抓取處理;
獲得模塊,用于根據(jù)所述網頁分類模型對每次抓取處理所抓取的網頁進行分類處理,獲得每次抓取處理對應的正例比例,所述每次抓取處理對應的正例比例是指每次抓取處理所抓取的網頁中被分類為所述網頁分類模型所屬類型的網頁數(shù)量與抓取處理所抓取的網頁總數(shù)的比值;
第一確定模塊,用于根據(jù)所述至少兩次抓取處理對應的正例比例之間的差值,確定所述網頁分類模型是否失效。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410411722.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像形成裝置
- 下一篇:識別特征賬號的方法及裝置





