[發明專利]一種搜索引擎抓取網頁開放式摘要信息的方法及裝置有效
| 申請號: | 201310445238.0 | 申請日: | 2013-09-26 |
| 公開(公告)號: | CN103473358B | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 袁瑞峰 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市中倫律師事務所 11410 | 代理人: | 張思悅 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索引擎 抓取 網頁 開放式 摘要 信息 方法 裝置 | ||
1.一種搜索引擎抓取網頁開放式摘要信息的方法(100),包括:
在抓取網頁信息時,檢測其中是否包含預設的開放式摘要信息的標識(S110),各個網頁包括一個或者多個開放式摘要信息;
在檢測到網頁信息中包含所述標識的情況下,抓取網頁信息中描述開放式摘要信息的結構的協議頭以及與開放式摘要信息中描述的所述結構相映射的網頁內容(S130),所述開放式摘要信息的內容能夠被調整;以及
驗證開放式摘要信息的渲染結果、和/或驗證開放式摘要信息的格式、和/或驗證開放式摘要信息的網頁內容;
在驗證通過的情況下,在接收到與網頁的關鍵詞相匹配的搜索請求時,返回根據所述協議頭以及所述內容對開放式摘要信息進行渲染的渲染結果,以作為所述搜索請求的搜索結果;
其中,所述驗證開放式摘要信息的格式的步驟包括:
驗證開放式摘要信息所占網頁區域的大小是否超出預先定義的閾值;
所述驗證開放式摘要信息的內容的步驟包括:
驗證開放式摘要信息的內容中是否包含特定元素。
2.如權利要求1所述的方法,其中,每個開放式摘要信息與相應的網頁的關鍵詞相關聯。
3.如權利要求1所述的方法,其中,與所述開放式摘要信息中描述的結構相映射的網頁內容包括以下的至少一種:文字、圖片、鏈接、視頻和音頻。
4.如權利要求1-3中的任一項所述的方法,所述方法還包括:
在驗證未通過的情況下,在接收到與網頁的關鍵詞相匹配的搜索請求時,返回網頁的默認摘要信息,以作為所述搜索請求的搜索結果。
5.如權利要求1-3中的任一項所述的方法,其中,所述特定元素包括價格和折扣信息中的至少一個。
6.如權利要求1~3中的任一項所述的方法,其中,所述開放式摘要信息采用HTML、HTML5、JavaScript、Flash或CSS的格式。
7.一種搜索引擎抓取網頁開放式摘要信息的裝置(500),其包括:
檢測模塊(510),用于在抓取網頁信息時,檢測其中是否包含預設的開放式摘要信息的標識,各個網頁包括一個或者多個開放式摘要信息;
抓取模塊(530),用于在檢測到網頁信息中包含所述標識的情況下,抓取網頁信息中描述開放式摘要信息的結構的協議頭以及與開放式摘要信息中描述的所述結構相映射的網頁內容,所述開放式摘要信息的內容能夠被調整;以及
驗證模塊,用于驗證開放式摘要信息的渲染結果、和/或驗證開放式摘要信息的格式、和/或驗證開放式摘要信息的網頁內容;在驗證通過的情況下,在接收到與網頁的關鍵詞相匹配的搜索請求時,返回根據協議頭以及網頁內容對開放式摘要信息進行渲染的渲染結果,以作為所述搜索請求的搜索結果;
其中,所述驗證模塊進一步用于驗證開放式摘要信息所占網頁區域的大小是否超出預先定義的閾值;或者驗證模塊進一步用于驗證開放式摘要信息的內容中是否包含特定元素。
8.如權利要求7所述的裝置,其中,每個開放式摘要信息與相應的網頁關鍵詞網頁的關鍵詞相關聯。
9.如權利要求7所述的裝置,其中,與開放式摘要信息中描述的結構相映射的網頁內容包括以下的至少一種:文字、圖片、鏈接、視頻和音頻。
10.如權利要求7所述的裝置,其中,所述驗證模塊還用于在驗證未通過的情況下,在接收到與網頁的關鍵詞相匹配的搜索請求時,返回網頁的默認摘要信息,以作為搜索請求的搜索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310445238.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種計算E型避雷器暫態應力的方法
- 下一篇:一種文件管理方法、裝置以及終端





