[發明專利]一種基于網頁抽取的搜索系統及搜索方法無效
| 申請號: | 200710074743.3 | 申請日: | 2007-06-07 |
| 公開(公告)號: | CN101192234A | 公開(公告)日: | 2008-06-04 |
| 發明(設計)人: | 杜建強;鄧大付 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 | 代理人: | 郭偉剛;蔡曉紅 |
| 地址: | 518057廣東省深圳市高新科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網頁 抽取 搜索 系統 方法 | ||
1.一種基于網頁抽取的搜索系統,包括用于下載網頁的網頁下載單元以及用于存儲搜索結果的結果存儲單元,其特征在于,還包括:
模板存儲單元,用于存儲一個或多個模板,所述模板用于記錄預設的網頁特征;
網頁抽取單元,用于將所述網頁下載單元下載的網頁中與所述模板匹配的內容作為搜索結果。
2.根據權利要求1所述的一種基于網頁抽取的搜索系統,其特征在于,所述模板存儲單元中的每一模板對應一組URL特征項,所述網頁抽取單元進一步包括模板匹配子單元,用于通過所述網頁的URL匹配模板的URL特征項,并丟棄與所有模板都不匹配的網頁。
3.根據權利要求2所述的一種基于網頁抽取的搜索系統,其特征在于,所述模板存儲單元中的每一模板包括一個或多個塊特征,所述塊特征包括HTML標簽的順序和/或標簽的嵌套,所述網頁抽取單元進一步包括塊匹配子單元,用于根據所述網頁中的HTML標簽匹配所述模板匹配子單元確定的模板中的塊特征,并丟棄網頁中與所述模板中所有塊特征都不匹配的內容。
4.根據權利要求3所述的一種基于網頁抽取的搜索系統,其特征在于,所述模板存儲單元中的每一模板的塊特征中包括一個或多個結點特征,所述結點特征包括數據類型、過濾規則和/或抽取規則,所述網頁抽取單元進一步包括結點匹配子單元,用于根據網頁中的數據類型和內容匹配所述塊匹配子單元確定的塊中的結點特征,并將與所述結點特征匹配的內容作為搜索結果。
5.根據權利要求1-4中任一項所述的一種基于網頁抽取的搜索系統,其特征在于,還包括模板設置單元,用于將被選擇網頁的URL或者經過編輯的URL作為模板的URL特征、將網頁中被選擇部分內容的標簽作為塊特征及結點特征生成模板。
6.一種基于網頁抽取的搜索方法,其特征在于,包括以下步驟:
(a)從互聯網獲取網頁;
(b)將步驟(a)中獲取的網頁中與預設的模板匹配的內容作為搜索結果,所述模板用于記錄預設的網頁特征;
(c)存儲步驟(b)獲得的搜索結果。
7.根據權利要求6所述的一種基于網頁抽取的搜索方法,其特征在于,每一所述模板對應一個URL特征項,所述步驟(b)進一步包括:
(b1)將所述網頁的URL匹配所述模板的URL特征項,并丟棄與所有模板都不匹配的網頁。
8.根據權利要求7所述的一種基于網頁抽取的搜索方法,其特征在于,每一所述模板包括一個或多個塊特征,所述塊特征包括HTML標簽的順序和/或標簽的嵌套,所述步驟(b)進一步包括:
(b2)根據所述網頁中的HTML標簽匹配所述步驟(b1)確定的模板中的塊特征,并丟棄網頁中與所述模板中所有塊特征都不匹配的內容。
9.根據權利要求8所述的一種基于網頁抽取的搜索方法,其特征在于,每一所述模板的塊特征中包括一個或多個結點特征,所述結點特征包括數據類型、過濾規則和/或抽取規則,所述步驟(b)進一步包括:
(b3)根據網頁中的數據類型和/或內容匹配所述步驟(b2)確定的塊中的結點特征,并將與所述結點特征匹配的內容作為搜索結果。
10.根據權利要求6所述的一種基于網頁抽取的搜索方法,其特征在于,所述模板中預設的網頁特征包括URL特征、塊特征或結點特征,所述步驟(b)進一步包括:
(b1’)將網頁的URL匹配模板的URL特征項,若存在對應的URL特征項的模板,則將包含匹配URL特征的模板作為當前網頁的模板并執行步驟(b2’),否則執行步驟(b5’);
(b2’)根據網頁中的HTML標簽匹配步驟(b1’)確定的模板中的塊特征,若網頁中存在匹配塊特征的內容,則執行步驟(b3’),否則執行步驟(b5’);
(b3’)根據網頁中的數據類型和/或內容匹配所述步驟(b2)確定的塊中的結點特征,若網頁中存在與結點特征匹配的內容,則執行步驟(b4’),否則執行步驟(b5’);
(b4’)將與結點特征匹配的內容作為搜索結果;
(b5’)丟棄當前網頁。
11.根據權利要求6-10中任一項所述的一種基于網頁抽取的搜索方法,其特征在于,還包括將被選擇網頁的URL或者經過編輯的URL作為模板的URL特征、將網頁中被選擇部分內容的標簽作為塊特征及結點特征生成模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710074743.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種曲軸成型制殼的方法
- 下一篇:一種電動汽車車載充電器的冷卻裝置和方法





