[發(fā)明專利]一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法無效

申請?zhí)枺?/td>	200710074743.3	申請日：	2007-06-07
公開（公告）號：	CN101192234A	公開（公告）日：	2008-06-04
發(fā)明（設(shè)計）人：	杜建強;鄧大付	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	深圳市順天達專利商標代理有限公司	代理人：	郭偉剛;蔡曉紅
地址：	518057廣東省深圳市高新科***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于網(wǎng)頁抽取搜索系統(tǒng) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及信息搜索領(lǐng)域，更具體地說，涉及一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法。

背景技術(shù)

隨著搜索引擎技術(shù)的發(fā)展，搜索結(jié)果的準確率已成為普遍關(guān)注的問題。目前，絕大多數(shù)搜索引擎都能呈現(xiàn)大量的搜索結(jié)果，但往往只有相關(guān)性好、結(jié)果準確的記錄才被關(guān)注。因此，具有針對性強、信息準確、更新及時等特點的專項搜索應(yīng)用較廣。

在整個搜索引擎中，網(wǎng)頁的下載和分析是搜索結(jié)果的數(shù)據(jù)來源。因此，網(wǎng)頁抽取算法是其關(guān)鍵技術(shù)之一，該算法的復雜度、可操作性、容錯性和準確度都是影響搜索結(jié)果的數(shù)量和質(zhì)量的重要因素，甚至會成為整個搜索引擎的瓶頸。

專利申請?zhí)枮?2111893.0、名稱為《基于信息抽取的搜索引擎》的中國公開了一種利用機器學習的方法：對含有同類信息且布局基本一致的HTML頁面樣本集進行學習，從而得出對此類HTML頁面進行信息抽取的規(guī)則；應(yīng)用這些規(guī)則，結(jié)合一個特定領(lǐng)域的搜索引擎，對網(wǎng)絡(luò)上的相關(guān)信息進行大量地獲取，并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。通過訓練和學習，調(diào)整規(guī)則數(shù)目和抽象程度，使其滿足精度要求，然后基于學習提煉后的規(guī)則集對樣本集以外的文本進行信息提取。對用搜索引擎獲取的特定內(nèi)容的頁面，利用規(guī)則進行信息提取。

然而，上述搜索引擎由于使用了機器學習方法，由程序生成頁面的抽取規(guī)則，因此這些規(guī)則容錯性比較差：一方面，很多類似結(jié)構(gòu)的頁面無法處理；另一方面，會降低抽取的準確率。此外，由于機器學習需要大量的測試集來對算法進行訓練和學習，其間不斷地調(diào)整和適應(yīng)規(guī)則需要花費大量的人力和時間。

發(fā)明內(nèi)容

本發(fā)明要解決的技術(shù)問題在于，針對上述搜索引擎抽取準確率低、可操作性差的問題，提供一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法。

本發(fā)明解決上述技術(shù)問題的技術(shù)方案是，提供一種基于網(wǎng)頁抽取的搜索系統(tǒng)，包括用于下載網(wǎng)頁的網(wǎng)頁下載單元以及用于存儲搜索結(jié)果的結(jié)果存儲單元，還包括：

模板存儲單元，用于存儲一個或多個模板，所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征；

網(wǎng)頁抽取單元，用于將所述網(wǎng)頁下載單元下載的網(wǎng)頁中與所述模板匹配的內(nèi)容作為搜索結(jié)果。

在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中，所述模板存儲單元中的每一模板對應(yīng)一組URL特征項，所述網(wǎng)頁抽取單元進一步包括模板匹配子單元，用于通過所述網(wǎng)頁的URL匹配模板的URL特征項，并丟棄與所有模板都不匹配的網(wǎng)頁。

在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中，所述模板存儲單元中的每一模板包括一個或多個塊特征，所述塊特征包括HTML標簽的順序和/或標簽的嵌套，所述網(wǎng)頁抽取單元進一步包括塊匹配子單元，用于根據(jù)所述網(wǎng)頁中的HTML標簽匹配所述模板匹配子單元確定的模板中的塊特征，并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。

在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中，所述模板存儲單元中的每一模板的塊特征中包括一個或多個結(jié)點特征，所述結(jié)點特征包括數(shù)據(jù)類型、過濾規(guī)則和/或抽取規(guī)則，所述網(wǎng)頁抽取單元進一步包括結(jié)點匹配子單元，用于根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和內(nèi)容匹配所述塊匹配子單元確定的塊中的結(jié)點特征，并將與所述結(jié)點特征匹配的內(nèi)容作為搜索結(jié)果。

在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中，還包括模板設(shè)置單元，用于將被選擇網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特征、將網(wǎng)頁中被選擇部分內(nèi)容的標簽作為塊特征及結(jié)點特征生成模板。

本發(fā)明還提供一種基于網(wǎng)頁抽取的搜索方法，包括以下步驟：

(a)從互聯(lián)網(wǎng)獲取網(wǎng)頁；

(b)將步驟(a)中獲取的網(wǎng)頁中與預(yù)設(shè)的模板匹配的內(nèi)容作為搜索結(jié)果，所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征；

(c)存儲步驟(b)獲得的搜索結(jié)果。

在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中，每一所述模板對應(yīng)一個URL特征項，所述步驟(b)進一步包括：

(b1)將所述網(wǎng)頁的URL匹配所述模板的URL特征項，并丟棄與所有模板都不匹配的網(wǎng)頁。

在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中，每一所述模板包括一個或多個塊特征，所述塊特征包括HTML標簽的順序和/或標簽的嵌套，所述步驟(b)進一步包括：

(b2)根據(jù)所述網(wǎng)頁中的HTML標簽匹配所述步驟(b1)確定的模板中的塊特征，并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200710074743.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種曲軸成型制殼的方法
下一篇：一種電動汽車車載充電器的冷卻裝置和方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】