[發(fā)明專利]一種搜索引擎抓取網(wǎng)頁開放式摘要信息的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310445238.0 | 申請(qǐng)日: | 2013-09-26 |
| 公開(公告)號(hào): | CN103473358B | 公開(公告)日: | 2018-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 袁瑞峰 | 申請(qǐng)(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京市中倫律師事務(wù)所 11410 | 代理人: | 張思悅 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 搜索引擎 抓取 網(wǎng)頁 開放式 摘要 信息 方法 裝置 | ||
本發(fā)明的實(shí)施例公開了一種搜索引擎抓取網(wǎng)頁開放式摘要信息的方法及裝置,其中該方法包括:在抓取網(wǎng)頁信息時(shí),檢測(cè)其中是否包含預(yù)設(shè)的開放式摘要信息的標(biāo)識(shí);以及在檢測(cè)到網(wǎng)頁信息中包含標(biāo)識(shí)的情況下,抓取網(wǎng)頁信息中描述開放式摘要信息的結(jié)構(gòu)的協(xié)議頭以及與開放式摘要信息中描述的結(jié)構(gòu)相映射的網(wǎng)頁內(nèi)容。通過本發(fā)明的實(shí)施例能夠調(diào)整搜索引擎抓取的開放式摘要信息的內(nèi)容,極大地豐富了網(wǎng)頁摘要信息展示的形式。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種搜索引擎抓取網(wǎng)頁開放式摘要信息的方法及裝置。
背景技術(shù)
用戶在使用搜索引擎進(jìn)行搜索時(shí),搜索引擎會(huì)根據(jù)用戶輸入的搜索關(guān)鍵詞返回多個(gè)搜索結(jié)果并展示給用戶查看,然而不同的用戶有時(shí)候會(huì)有不同的偏好的站點(diǎn)。目前主流的搜索引擎,在抓取網(wǎng)站內(nèi)容時(shí)僅是根據(jù)簡(jiǎn)單的robots協(xié)議(也稱為爬蟲協(xié)議、爬蟲規(guī)則、機(jī)器人協(xié)議等)進(jìn)行提取,在用戶搜索時(shí)根據(jù)匹配度提供簡(jiǎn)單的信息展示,由此使得網(wǎng)站信息與用戶搜索需求匹配度不高,展示效果差,搜索結(jié)果轉(zhuǎn)化率低,內(nèi)容無法驗(yàn)證等多個(gè)技術(shù)問題。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的搜索引擎抓取網(wǎng)頁開放式摘要信息的方法及裝置,豐富搜索結(jié)果展示的效果。
為了達(dá)到上述目的,本發(fā)明的實(shí)施例的一個(gè)方面提供了一種搜索引擎抓取網(wǎng)頁開放式摘要信息的方法,包括:在抓取網(wǎng)頁信息時(shí),檢測(cè)其中是否包含預(yù)設(shè)的開放式摘要信息的標(biāo)識(shí);以及在檢測(cè)到網(wǎng)頁信息中包含標(biāo)識(shí)的情況下,抓取網(wǎng)頁信息中描述開放式摘要信息的結(jié)構(gòu)的協(xié)議頭以及與開放式摘要信息中描述的結(jié)構(gòu)相映射的網(wǎng)頁內(nèi)容。
可選地,每個(gè)網(wǎng)頁包括一個(gè)或者多個(gè)開放式摘要信息,每個(gè)開放式摘要信息與相應(yīng)的網(wǎng)頁的關(guān)鍵詞相關(guān)聯(lián)。
可選地,與開放式摘要信息中描述的結(jié)構(gòu)相映射的網(wǎng)頁內(nèi)容包括以下的至少一種:文字、圖片、鏈接、視頻和音頻。
可選地,該方法還包括:驗(yàn)證開放式摘要信息的渲染結(jié)果、和/或驗(yàn)證開放式摘要信息的格式、和/驗(yàn)證開放式摘要信息的網(wǎng)頁內(nèi)容;在驗(yàn)證通過的情況下,在接收到與網(wǎng)頁的關(guān)鍵詞相匹配的搜索請(qǐng)求時(shí),返回根據(jù)協(xié)議頭以及內(nèi)容對(duì)開放式摘要信息進(jìn)行渲染的渲染結(jié)果,以作為所述搜索請(qǐng)求的搜索結(jié)果。
可選地,該方法還包括:在驗(yàn)證未通過的情況下,在接收到與網(wǎng)頁的關(guān)鍵詞相匹配的搜索請(qǐng)求時(shí),返回網(wǎng)頁的默認(rèn)摘要信息,以作為搜索請(qǐng)求的搜索結(jié)果。
可選地,驗(yàn)證開放式摘要信息的格式的步驟包括:驗(yàn)證開放式摘要信息所占網(wǎng)頁區(qū)域的大小是否超出預(yù)先定義的閾值;
所述驗(yàn)證開放式摘要信息的內(nèi)容的步驟包括:驗(yàn)證開放式摘要信息的內(nèi)容中是否包含特定元素。
可選地,特定元素包括價(jià)格和折扣信息中的至少一個(gè)。
可選地,開放式摘要信息采用HTML、HTML5、JavaScript、Flash、或CSS的格式。
根據(jù)本發(fā)明的實(shí)施例的另一個(gè)方面提供了一種搜索引擎抓取網(wǎng)頁開放式摘要信息的裝置,其包括:檢測(cè)模塊,用于在抓取網(wǎng)頁信息時(shí),檢測(cè)其中是否包含預(yù)設(shè)的開放式摘要信息的標(biāo)識(shí);以及抓取模塊,用于在檢測(cè)到網(wǎng)頁信息中包含所述標(biāo)識(shí)的情況下,抓取網(wǎng)頁信息中描述開放式摘要信息的結(jié)構(gòu)的協(xié)議頭以及與開放式摘要信息中描述的所述結(jié)構(gòu)相映射的網(wǎng)頁內(nèi)容。
可選地,每個(gè)網(wǎng)頁包括一個(gè)或者多個(gè)開放式摘要信息,每個(gè)開放式摘要信息與相應(yīng)的網(wǎng)頁關(guān)鍵詞網(wǎng)頁的關(guān)鍵詞相關(guān)聯(lián)。
可選地,與開放式摘要信息中描述的結(jié)構(gòu)相映射的網(wǎng)頁內(nèi)容包括以下的至少一種:文字、圖片、鏈接、視頻和音頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310445238.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 內(nèi)容-索引搜索系統(tǒng)和方法
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 搜索引擎的狀態(tài)獲取方法、裝置以及瀏覽器
- 一種瀏覽器中進(jìn)行網(wǎng)頁搜索的方法及裝置
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 通過搜索引擎生成定制化內(nèi)容的方法、系統(tǒng)及搜索引擎
- 通過搜索引擎?zhèn)鬟f信息的方法、系統(tǒng)及搜索引擎
- 搜索引擎的切換方法、裝置以及電子設(shè)備
- 搜索引擎處理方法、裝置、終端及存儲(chǔ)介質(zhì)





