[發(fā)明專利]一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法無效
| 申請?zhí)枺?/td> | 200710074743.3 | 申請日: | 2007-06-07 |
| 公開(公告)號: | CN101192234A | 公開(公告)日: | 2008-06-04 |
| 發(fā)明(設(shè)計)人: | 杜建強;鄧大付 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 | 代理人: | 郭偉剛;蔡曉紅 |
| 地址: | 518057廣東省深圳市高新科*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)頁 抽取 搜索 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息搜索領(lǐng)域,更具體地說,涉及一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法。
背景技術(shù)
隨著搜索引擎技術(shù)的發(fā)展,搜索結(jié)果的準確率已成為普遍關(guān)注的問題。目前,絕大多數(shù)搜索引擎都能呈現(xiàn)大量的搜索結(jié)果,但往往只有相關(guān)性好、結(jié)果準確的記錄才被關(guān)注。因此,具有針對性強、信息準確、更新及時等特點的專項搜索應(yīng)用較廣。
在整個搜索引擎中,網(wǎng)頁的下載和分析是搜索結(jié)果的數(shù)據(jù)來源。因此,網(wǎng)頁抽取算法是其關(guān)鍵技術(shù)之一,該算法的復雜度、可操作性、容錯性和準確度都是影響搜索結(jié)果的數(shù)量和質(zhì)量的重要因素,甚至會成為整個搜索引擎的瓶頸。
專利申請?zhí)枮?2111893.0、名稱為《基于信息抽取的搜索引擎》的中國公開了一種利用機器學習的方法:對含有同類信息且布局基本一致的HTML頁面樣本集進行學習,從而得出對此類HTML頁面進行信息抽取的規(guī)則;應(yīng)用這些規(guī)則,結(jié)合一個特定領(lǐng)域的搜索引擎,對網(wǎng)絡(luò)上的相關(guān)信息進行大量地獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。通過訓練和學習,調(diào)整規(guī)則數(shù)目和抽象程度,使其滿足精度要求,然后基于學習提煉后的規(guī)則集對樣本集以外的文本進行信息提取。對用搜索引擎獲取的特定內(nèi)容的頁面,利用規(guī)則進行信息提取。
然而,上述搜索引擎由于使用了機器學習方法,由程序生成頁面的抽取規(guī)則,因此這些規(guī)則容錯性比較差:一方面,很多類似結(jié)構(gòu)的頁面無法處理;另一方面,會降低抽取的準確率。此外,由于機器學習需要大量的測試集來對算法進行訓練和學習,其間不斷地調(diào)整和適應(yīng)規(guī)則需要花費大量的人力和時間。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對上述搜索引擎抽取準確率低、可操作性差的問題,提供一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,提供一種基于網(wǎng)頁抽取的搜索系統(tǒng),包括用于下載網(wǎng)頁的網(wǎng)頁下載單元以及用于存儲搜索結(jié)果的結(jié)果存儲單元,還包括:
模板存儲單元,用于存儲一個或多個模板,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;
網(wǎng)頁抽取單元,用于將所述網(wǎng)頁下載單元下載的網(wǎng)頁中與所述模板匹配的內(nèi)容作為搜索結(jié)果。
在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,所述模板存儲單元中的每一模板對應(yīng)一組URL特征項,所述網(wǎng)頁抽取單元進一步包括模板匹配子單元,用于通過所述網(wǎng)頁的URL匹配模板的URL特征項,并丟棄與所有模板都不匹配的網(wǎng)頁。
在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,所述模板存儲單元中的每一模板包括一個或多個塊特征,所述塊特征包括HTML標簽的順序和/或標簽的嵌套,所述網(wǎng)頁抽取單元進一步包括塊匹配子單元,用于根據(jù)所述網(wǎng)頁中的HTML標簽匹配所述模板匹配子單元確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。
在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,所述模板存儲單元中的每一模板的塊特征中包括一個或多個結(jié)點特征,所述結(jié)點特征包括數(shù)據(jù)類型、過濾規(guī)則和/或抽取規(guī)則,所述網(wǎng)頁抽取單元進一步包括結(jié)點匹配子單元,用于根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和內(nèi)容匹配所述塊匹配子單元確定的塊中的結(jié)點特征,并將與所述結(jié)點特征匹配的內(nèi)容作為搜索結(jié)果。
在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,還包括模板設(shè)置單元,用于將被選擇網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特征、將網(wǎng)頁中被選擇部分內(nèi)容的標簽作為塊特征及結(jié)點特征生成模板。
本發(fā)明還提供一種基于網(wǎng)頁抽取的搜索方法,包括以下步驟:
(a)從互聯(lián)網(wǎng)獲取網(wǎng)頁;
(b)將步驟(a)中獲取的網(wǎng)頁中與預(yù)設(shè)的模板匹配的內(nèi)容作為搜索結(jié)果,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;
(c)存儲步驟(b)獲得的搜索結(jié)果。
在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,每一所述模板對應(yīng)一個URL特征項,所述步驟(b)進一步包括:
(b1)將所述網(wǎng)頁的URL匹配所述模板的URL特征項,并丟棄與所有模板都不匹配的網(wǎng)頁。
在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,每一所述模板包括一個或多個塊特征,所述塊特征包括HTML標簽的順序和/或標簽的嵌套,所述步驟(b)進一步包括:
(b2)根據(jù)所述網(wǎng)頁中的HTML標簽匹配所述步驟(b1)確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710074743.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種曲軸成型制殼的方法
- 下一篇:一種電動汽車車載充電器的冷卻裝置和方法





