[發(fā)明專(zhuān)利]用于深層網(wǎng)頁(yè)數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 200710021883.4 | 申請(qǐng)日: | 2007-05-09 |
| 公開(kāi)(公告)號(hào): | CN101051313A | 公開(kāi)(公告)日: | 2007-10-10 |
| 發(fā)明(設(shè)計(jì))人: | 崔志明;趙朋朋;方巍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 崔志明;趙朋朋;方巍 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 蘇州創(chuàng)元專(zhuān)利商標(biāo)事務(wù)所有限公司 | 代理人: | 陶海鋒 |
| 地址: | 215001江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 深層 網(wǎng)頁(yè) 數(shù)據(jù)源 集成 發(fā)現(xiàn) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于網(wǎng)絡(luò)的數(shù)據(jù)源的發(fā)現(xiàn)方法,具體涉及一種由網(wǎng)絡(luò)查詢(xún)接口連接的深層網(wǎng)頁(yè)的數(shù)據(jù)源發(fā)現(xiàn)方法,用于深層網(wǎng)頁(yè)數(shù)據(jù)源的集成。
背景技術(shù)
隨著網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的廣泛應(yīng)用,網(wǎng)絡(luò)正在加速“深化”。互聯(lián)網(wǎng)上有大量頁(yè)面是由后臺(tái)數(shù)據(jù)庫(kù)動(dòng)態(tài)產(chǎn)生,這部分信息不能直接通過(guò)靜態(tài)鏈接獲取,只能通過(guò)填寫(xiě)表單提交查詢(xún)來(lái)獲取,由于傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)(Crawler)不具有填寫(xiě)表單的能力,無(wú)法獲取這些頁(yè)面。因此,現(xiàn)有的搜索引擎搜索不出這部分頁(yè)面信息,從而導(dǎo)致這部分信息對(duì)用戶(hù)是隱藏、不可見(jiàn)的,我們稱(chēng)之為深層網(wǎng)絡(luò)頁(yè)面(Deep?Web,又稱(chēng)為Invisible?Web,Hidden?Web)。Deep?Web是一個(gè)與SurfaceWeb相對(duì)應(yīng)的概念,最初由Dr.Jill?Ellsworth于1994年提出,指那些由普通搜索引擎難以發(fā)現(xiàn)其信息內(nèi)容的網(wǎng)絡(luò)頁(yè)面。Deep?Web信息一般存儲(chǔ)在數(shù)據(jù)庫(kù)中,和靜態(tài)頁(yè)面相比通常信息量更大,主題更專(zhuān)一,信息質(zhì)量更好,信息結(jié)構(gòu)化更好,增長(zhǎng)速度更快。研究表明,Deep?Web信息是Surface?Web信息的500倍,有近450,000個(gè)Deep?Web站點(diǎn)。實(shí)現(xiàn)大規(guī)模Deep?Web數(shù)據(jù)集成是方便用戶(hù)使用Deep?Web信息的一個(gè)有效途徑。
要實(shí)現(xiàn)大規(guī)模Deep?Web集成搜索,需要解決:1)數(shù)據(jù)源發(fā)現(xiàn)(Deep?WebDiscovery);2)查詢(xún)接口抽取(Query?Interface?Extraction);3)數(shù)據(jù)源分類(lèi)(Source?Classification);4)查詢(xún)轉(zhuǎn)換(Query?Transfer);5)結(jié)果合成(ResultMerging)等五個(gè)關(guān)鍵問(wèn)題。
對(duì)Deep?Web進(jìn)行分類(lèi)集成搜索的前提是獲取Deep?Web查詢(xún)接口,這屬于數(shù)據(jù)源發(fā)現(xiàn)的范疇。
K.C.-C.Chang,B.He,Z.Zhang在Toward?Large-Scale?Integration:Building?a?MetaQuerier?over?Databases?on?the?Web一文中(Conference?onInnovative?Data?Systems?Research,Asilomar,2005),公開(kāi)了一種從網(wǎng)絡(luò)中獲取查詢(xún)接口的方法,其首先收集提供WWW服務(wù)的IP地址列表,然后對(duì)于列表中每個(gè)IP地址,按照寬度優(yōu)先策略依次抓取一定深度范圍內(nèi)的網(wǎng)頁(yè),并從下載的頁(yè)面中提取可查詢(xún)接口。但是,由于互聯(lián)網(wǎng)中含有查詢(xún)接口的頁(yè)面比例很小,而寬度優(yōu)先是一種盲目的搜索策略,采用這種方法會(huì)下載大量無(wú)關(guān)的頁(yè)面,效率非常低。
解決這個(gè)問(wèn)題的有效手段是采用聚焦爬行(Focused?Crawling)技術(shù)。目前把聚焦爬蟲(chóng)技術(shù)應(yīng)用到Deep?Web數(shù)據(jù)源發(fā)現(xiàn)中的研究還比較少。有學(xué)者使用鏈接分類(lèi)器來(lái)優(yōu)先下載那些最可能指向含有查詢(xún)接口的頁(yè)面。在訓(xùn)練分類(lèi)器過(guò)程中,其使用Google等搜索引擎來(lái)得到指向內(nèi)層頁(yè)面的所有外層頁(yè)面,但是這種方法的缺點(diǎn)是:越到外層,頁(yè)面的數(shù)量就越多,并且很多是無(wú)關(guān)的頁(yè)面,所以會(huì)造成“主題漂移”等問(wèn)題。而且上述方法無(wú)法得到某頁(yè)面在其所屬站點(diǎn)中準(zhǔn)確的深度信息,從而無(wú)法很好地控制爬行的進(jìn)程。
發(fā)明內(nèi)容
本發(fā)明目的是提供一種用于深層網(wǎng)頁(yè)數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法,以根據(jù)所設(shè)定的主題,實(shí)現(xiàn)主題相關(guān)的數(shù)據(jù)查詢(xún)接口的檢索下載,減小頁(yè)面下載數(shù)量,解決主題漂移問(wèn)題。
為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:一種用于深層網(wǎng)頁(yè)數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法,包括下列步驟:
(1)提供待查詢(xún)數(shù)據(jù)的主題,分別構(gòu)建站點(diǎn)根鏈接隊(duì)列和本地鏈接隊(duì)列,在站點(diǎn)根鏈接隊(duì)列中放入至少一個(gè)種子根鏈接地址,并根據(jù)其與主題的關(guān)系給定權(quán)重;
(2)如果本地鏈接隊(duì)列為空,則從站點(diǎn)根鏈接隊(duì)列中取權(quán)重最大的一個(gè)根鏈接地址,放入本地鏈接隊(duì)列中;從本地鏈接隊(duì)列中取評(píng)分最高的頁(yè)面鏈接,由爬行模塊下載該頁(yè)面;
(3)利用表單分類(lèi)器對(duì)步驟(2)下載的頁(yè)面進(jìn)行處理,如其中含有表單查詢(xún)接口,則將其加入深層網(wǎng)頁(yè)數(shù)據(jù)源中;
(4)利用頁(yè)面分類(lèi)器對(duì)步驟(2)下載的頁(yè)面進(jìn)行處理,所述頁(yè)面分類(lèi)器采用最優(yōu)者優(yōu)先(best-first)策略進(jìn)行主題判斷,如果主題評(píng)分小于設(shè)定閾值,則返回步驟(2);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于崔志明;趙朋朋;方巍,未經(jīng)崔志明;趙朋朋;方巍許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710021883.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類(lèi)型識(shí)別方法以及網(wǎng)頁(yè)類(lèi)型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補(bǔ)充方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個(gè)數(shù)據(jù)源調(diào)節(jié)工業(yè)自動(dòng)化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種動(dòng)態(tài)數(shù)據(jù)源查詢(xún)方法及裝置
- 一種訪問(wèn)多數(shù)據(jù)源的方法及系統(tǒng)





