[發明專利]抓取問答類網頁的方法和裝置有效
| 申請號: | 201410802012.6 | 申請日: | 2014-12-18 |
| 公開(公告)號: | CN104462493B | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 王智廣 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京智匯東方知識產權代理事務所(普通合伙) 11391 | 代理人: | 康正德;郭海彬 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 問答 網頁 方法 裝置 | ||
本發明提供了一種抓取問答類網頁的方法和裝置。其中抓取問答類網頁的方法包括:在已抓取的問答類網頁中識別出預定內容類型的目標問答網頁;獲取目標問答網頁的發布時間以及目標問答網頁的抓取時間;計算發布時間與抓取時間的時間差;在確定時間差小于預設閾值時,對目標問答網頁進行重新抓取。使用本發明的方案,可以及時地將問答類網頁中出現的有效答案進行收錄,提高了問答類網頁抓取的效率。
技術領域
本發明涉及互聯網技術領域,特別是涉及一種抓取問答類網頁的方法和裝置。
背景技術
搜索引擎中收錄的網頁需要和互聯網中的網頁保持一致,才能保證展現給用戶的內容與網絡上的實際內容相符,也就是說當互聯網中網頁內容發生變化時搜索引擎也應該更新其收錄的網頁,否則直接影響用戶使用網絡的體驗。因此搜索引擎一般會對收錄的網頁定期進行掃描,當發現出現更新時重新進行抓取。
但是對于網絡中的某些特定種類的網頁,其更新變化的時間是不固定的,對于這類網頁使用現有的定期掃描的方式,會造成大量的浪費(例如占用大量的網絡流量)。
問答類網頁就是上述的網頁更新時間隨機的一種,這類網頁是指在某一站點發布問題,等待該網站其他使用者進行解答的特殊網頁。現有的問答類網頁例如360問答等發展很快,吸引了大量的用戶。在發布問答類網頁后,問題得到有效答案的時間是不固定的,有些可能在發布后立刻得到解答,而有些問題可能需要幾天甚至上月的時間才能獲得答案,甚至有些問題始終無人解答。
問答類網頁一方面更新時間隨機,另一方面又數量巨大,因此如果使用較短的掃描周期,會造成大量的資源消耗,如果使用更長的掃描周期,又會造成無法及時收錄問題的有效解答,造成用戶較差的體驗。因此現有技術中缺乏有效處理問答類網頁的抓取方案。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的抓取問答類網頁的裝置和相應的抓取問答類網頁的方法。本發明一個進一步的目的是要使得更有效地抓取更新的網頁。
本發明另一個進一步的目的是要更有效地利用抓取流量,避免資源浪費。
根據本發明的另一方面,提供了一種抓取問答類網頁的方法。該抓取問答類網頁的方法包括:在已抓取的問答類網頁中識別出預定內容類型的目標問答網頁;獲取目標問答網頁的發布時間以及目標問答網頁的抓取時間;計算發布時間與抓取時間的時間差;在確定時間差小于預設閾值時,對目標問答網頁進行重新抓取。
可選地,預定內容類型包括問答類網頁中不包含答案的頁面。
可選地,在已抓取的問答類網頁中識別出預定內容類型的目標問答網頁包括:對預設時間段內抓取的統一資源符屬于問答類站點的問答網頁進行內容掃描,以確定問答網頁中包含的答案數量;將不包含答案的問答網頁作為目標問答網頁。
可選地,在計算發布時間與抓取時間的時間差之后還包括:在確定時間差大于或等于預設閾值時,獲取目標問答網頁的用戶訪問數據;在用戶訪問數據滿足預設條件時,對目標問答網頁進行重新抓取。
可選地,獲取目標問答網頁的用戶訪問數據包括:獲取目標問答網頁的獨立訪客數據;預設條件包括:在時間差內的時間中目標問答網頁新增的獨立訪客數達到預設數量。
可選地,獲取目標問答網頁的用戶訪問數據包括:獲取目標問答網頁作為其他網頁的超鏈接被訪問的信息;預設條件包括:在時間差內的時間中目標問答網頁作為其他網頁的超鏈接被訪問過。
可選地,目標問答網頁的發布時間包括:目標問答網頁的創建時間或者搜索引擎發現目標問答網頁的時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410802012.6/2.html,轉載請聲明來源鉆瓜專利網。





