[發(fā)明專(zhuān)利]一種關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的建立方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201310607854.1 | 申請(qǐng)日: | 2013-11-25 |
| 公開(kāi)(公告)號(hào): | CN103617229A | 公開(kāi)(公告)日: | 2014-03-05 |
| 發(fā)明(設(shè)計(jì))人: | 王智廣 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 100088 北京市西城區(qū)新*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 關(guān)聯(lián) 網(wǎng)頁(yè) 數(shù)據(jù)庫(kù) 建立 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)庫(kù)的技術(shù)領(lǐng)域,具體涉及一種關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的建立方法、一種關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的建立裝置。
背景技術(shù)
隨著因特網(wǎng)的發(fā)展,愈來(lái)愈多的信息是通過(guò)網(wǎng)頁(yè)方式呈現(xiàn)在因特網(wǎng)上供用戶查詢,同樣的通過(guò)搜尋引擎在因特網(wǎng)中查詢數(shù)據(jù)也成為最常使用的數(shù)據(jù)搜尋方法。
搜索引擎收錄網(wǎng)頁(yè)時(shí)需要針對(duì)不同種類(lèi)的網(wǎng)頁(yè)采取不同的調(diào)度策略,網(wǎng)頁(yè)種類(lèi)的識(shí)別是一項(xiàng)基礎(chǔ)工作,其中翻頁(yè)(Page?turning)網(wǎng)頁(yè)的識(shí)別是一項(xiàng)比較關(guān)鍵的工作。所謂翻頁(yè)網(wǎng)頁(yè),即查看分頁(yè)文件的上一個(gè)頁(yè)面、下一個(gè)頁(yè)面或任意存在的非當(dāng)前頁(yè)面。翻頁(yè)網(wǎng)頁(yè)可以將實(shí)體書(shū)或者移動(dòng)Web窗體中的內(nèi)容進(jìn)行改變,以觀看不同內(nèi)容。在互聯(lián)網(wǎng)上運(yùn)用時(shí)該機(jī)制還呈現(xiàn)可用于瀏覽到其他頁(yè)的用戶界面元素。
現(xiàn)有的翻頁(yè)網(wǎng)頁(yè)的識(shí)別方法是根據(jù)網(wǎng)頁(yè)的URL(Uniform?Resource?Locator,統(tǒng)一資源定位符)所包含的關(guān)鍵詞來(lái)識(shí)別是否是索引頁(yè)。例如,當(dāng)URL包含有page、pn、p等關(guān)鍵詞以及關(guān)鍵詞后面有數(shù)字時(shí),判斷該URL對(duì)應(yīng)的網(wǎng)頁(yè)為翻頁(yè)網(wǎng)頁(yè)。
但是,這種識(shí)別方法召回率低,并且很多網(wǎng)站的翻頁(yè)是不具有這些關(guān)鍵詞的,比如“http://cq.ABC.com/lvshi/o12/”、“http://bbs.BCA.com/t661_10”、“http://china.BCD.com/product/20110617/2647”,但是這些網(wǎng)頁(yè)依然是翻頁(yè),使得這些識(shí)別方法容易造成誤操作,實(shí)用性低。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的建立方法和相應(yīng)的一種關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的建立裝置。
依據(jù)本發(fā)明的一個(gè)方面,提供了一種關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的建立方法,包括:
判斷抓取到的網(wǎng)頁(yè)是否包括關(guān)聯(lián)網(wǎng)頁(yè)URL模式;若是,則獲取所述關(guān)聯(lián)網(wǎng)頁(yè)URL模式;
基于所述關(guān)聯(lián)網(wǎng)頁(yè)URL模式獲取對(duì)應(yīng)的關(guān)聯(lián)網(wǎng)頁(yè);
采用所述關(guān)聯(lián)網(wǎng)頁(yè)URL模式對(duì)應(yīng)的關(guān)聯(lián)網(wǎng)頁(yè)建立關(guān)聯(lián)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。
可選地,所述判斷抓取到的網(wǎng)頁(yè)是否包括關(guān)聯(lián)網(wǎng)頁(yè)URL模式的步驟包括:
判斷當(dāng)前網(wǎng)頁(yè)的頁(yè)面元素中是否具有翻頁(yè)特征字符串;若是,則提取所述翻頁(yè)特征字符串鏈接的URL;
采用預(yù)置的替換字符替換當(dāng)前網(wǎng)頁(yè)的URL中的數(shù)字塊,獲得第一特征URL前綴;其中,所述數(shù)字塊為被間隔標(biāo)識(shí)分割出的單個(gè)數(shù)字或多個(gè)數(shù)字;
采用預(yù)置的替換字符替換所述翻頁(yè)特征字符串鏈接的URL中的數(shù)字塊,獲得第二特征URL前綴;
當(dāng)所述第一特征URL前綴與所述第二特征URL前綴相同時(shí),則判定抓取到的網(wǎng)頁(yè)是否包括關(guān)聯(lián)網(wǎng)頁(yè)URL模式。
可選地,所述判斷當(dāng)前網(wǎng)頁(yè)的頁(yè)面元素中是否具有翻頁(yè)特征字符串的步驟包括:
采用翻頁(yè)特征字符串在當(dāng)前網(wǎng)頁(yè)的DOM樹(shù)節(jié)點(diǎn)中進(jìn)行匹配;
當(dāng)匹配成功時(shí),則判斷當(dāng)前網(wǎng)頁(yè)具有翻頁(yè)特征字符串。
可選地,所述采用預(yù)置的替換字符替換當(dāng)前網(wǎng)頁(yè)的URL中的數(shù)字塊,獲得第一特征URL前綴的步驟為:
采用相同的替換字符替換當(dāng)前網(wǎng)頁(yè)的URL中不同位置的數(shù)字塊,獲得第一特征URL前綴;
所述采用預(yù)置的替換字符替換所述翻頁(yè)特征字符串鏈接的URL中的數(shù)字塊,獲得第二特征URL前綴的步驟為:
采用相同的替換字符替換所述特征字符串鏈接的URL中不同位置的數(shù)字塊,獲得第二特征URL前綴。
可選地,所述采用預(yù)置的替換字符替換當(dāng)前網(wǎng)頁(yè)的URL中的數(shù)字塊,獲得第一特征URL前綴的步驟為:
分別采用不同的替換字符,替換當(dāng)前網(wǎng)頁(yè)的URL中不同位置的數(shù)字塊,獲得第一特征URL前綴;
所述采用預(yù)置的替換字符替換所述翻頁(yè)特征字符串鏈接的URL中的數(shù)字塊,獲得第二特征URL前綴的步驟為:
分別采用與第一特征URL相同的替換字符替換所述翻頁(yè)特征字符串鏈接的URL在相同位置的數(shù)字塊,獲得第二特征URL前綴。
可選地,所述采用所述關(guān)聯(lián)網(wǎng)頁(yè)URL模式獲取對(duì)應(yīng)的關(guān)聯(lián)網(wǎng)頁(yè)的步驟包括:
將所述第一特征URL前綴或第二特征URL前綴作為所述當(dāng)前網(wǎng)頁(yè)的對(duì)應(yīng)的關(guān)聯(lián)網(wǎng)頁(yè)URL模式。
可選地,所述獲取所述關(guān)聯(lián)網(wǎng)頁(yè)URL模式對(duì)應(yīng)的關(guān)聯(lián)網(wǎng)頁(yè)的步驟包括:
通過(guò)對(duì)關(guān)聯(lián)網(wǎng)頁(yè)URL模式中的共性部分進(jìn)行結(jié)構(gòu)分析,提取關(guān)聯(lián)網(wǎng)頁(yè)URL模式中的翻頁(yè)塊,將所述翻頁(yè)塊替換為首頁(yè)標(biāo)識(shí)獲得首頁(yè)關(guān)聯(lián)網(wǎng)頁(yè)的URL;其中,所述翻頁(yè)塊為多個(gè)關(guān)聯(lián)網(wǎng)頁(yè)URL模式中位置相同但數(shù)字不同的數(shù)字塊;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310607854.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種新型電源線固定環(huán)
- 下一篇:一種碳纖維反射體
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類(lèi)型識(shí)別方法以及網(wǎng)頁(yè)類(lèi)型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)管理系統(tǒng)及數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)構(gòu)筑裝置、數(shù)據(jù)庫(kù)檢索裝置、數(shù)據(jù)庫(kù)裝置、數(shù)據(jù)庫(kù)構(gòu)筑方法、以及數(shù)據(jù)庫(kù)檢索方法
- 數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)處理方法
- 數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)庫(kù)更新方法、數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)更新程序
- 容器數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)同步方法及數(shù)據(jù)庫(kù)
- 一種MongoDB數(shù)據(jù)庫(kù)對(duì)象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫(kù)語(yǔ)句執(zhí)行方法及裝置





