[發明專利]一種自適應增量式的深層網絡數據源發現方法有效
| 申請號: | 201310733599.5 | 申請日: | 2013-12-26 |
| 公開(公告)號: | CN103714149B | 公開(公告)日: | 2017-04-19 |
| 發明(設計)人: | 趙峰;金海;聶昶;陳恒 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 華中科技大學專利中心42201 | 代理人: | 朱仁玲 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 增量 深層 網絡 數據源 發現 方法 | ||
技術領域
本發明屬于計算機領域的信息檢索和數據挖掘,具體涉及一種自適應增量式的深層網絡數據源發現方法,可以自動并高效按照領域發現深層網絡數據源。
背景技術
隨著互聯網數據爆炸式增長,越來越多網站站點采用網絡數據庫技術,互聯網上大量的頁面由數據庫動態生成,這些信息不能通過靜態鏈接爬取,必須通過提交查詢來獲得。由于搜索引擎的爬蟲不具備自動填寫表單的能力,因此這部分數據不能被搜索引擎索引,隱藏在網絡數據庫背后,這部分數據被稱為深層網絡或者暗網。
BrightPlanet在2001發布的深層網絡白皮書,對深層網絡進行了一次較為全面的宏觀統計,白皮書中指出深層網絡蘊含的信息量是淺層網絡的400-550倍,深層網絡信息高度領域相關,其信息質量是淺層網絡的1000-2000倍。為了挖掘深層網絡中的數據,現有的技術包括數據集成、暗網爬蟲和采樣等,然而這些技術第一步就是獲取深層網絡數據源。由于深層網絡數據源呈稀疏分布的特性,而且經常變化和更新,不斷有新的數據源加入和舊的數據源撤出,因此自動定位這些數據源頗具挑戰。此外現有的深層網絡目錄站點大都是手動或半自動化方法,而且這些目錄站點覆蓋率低。例如最大的在線數據庫目錄站點completePlane,收錄了70,000個在線數據庫僅占整體的15.6%。
現有的數據源發現機制主要可以分為兩類:通用爬蟲和主題爬蟲,其中通用爬蟲一般采用窮盡的方式進行爬行,會下載大量無關的頁面導致效率低下;主題爬蟲方式按照領域進行爬取,通過頁面分類器過濾掉主題無關頁面,再通過鏈接分類器對鏈接篩選來加快爬行過程,但由于存在主題漂移和鏈接分類器精度等因素,會降低爬行的效率;此外由于數據源稀疏分布,主題爬蟲通過設置終止條件來加快爬行過程會導致大量頁面沒有機會訪問,頁面分類器和鏈接分類器也會過濾掉很多頁面和鏈接,因此難以保證高的覆蓋率。
發明內容
鑒于此,本發明的目的在于提供一種自適應增量式的深層網絡數據源發現方法,該方法可以按照領域自動高效發現深層網絡數據源。
為實現以上發明目的,本發明采用以下技術方案:
一種自適應增量式的深層網絡數據源發現方法,包括站點定位和站內搜索兩個階段,其中,所述站點定位階段包括站點收集、站點排序和站點分類,所述站內搜索階段包括頁面抓取、鏈接選取和表單分類,
所述站點收集用于發現新的站點,保證爬行過程中站點隊列中有充足的站點鏈接供選?。?/p>
所述站點排序用于給站點評分并選取相關度最高的站點鏈接;
所述站點分類用于判斷站點是否領域相關;
所述頁面抓取用于按照寬度優先策略訪問到指定深度,其中,在每層爬行過程中,從存儲當前深度的鏈接的工作隊列中抽取鏈接,把頁面中站內鏈接抽取到候選隊列中用于下一個深度的爬取,將外部站點鏈接存儲到站點數據庫和站點隊列中;
所述鏈接選取用于在訪問站點每層之前對候選隊列中的鏈接進行篩選和排序;
所述表單分類用于通過通用表單分類器和領域表單分類器判定表單是否為領域相關的查詢表單,從而對表單進行過濾。
與現有技術相比,本發明具有以下有益效果:
(1)自適應性。通過在線構建深層網絡站點特征空間和表單路徑特征空間,可以學習到新的特征,用以優化站點和站內鏈接的選取,可以盡早發現潛在深層網絡站點和查詢表單。
(2)增量式爬取。采用兩階段式數據源發現機制,只需要以較小的代價記錄站點訪問狀態和含有表單的鏈接實現增量式爬取,每次爬行可以在原有基礎上繼續進行。
(3)覆蓋率高。將深層網絡數據源發現過程分為站點定位和站內搜索兩階段,首先通過站點分類器避免無關站點的訪問,其次引入站點收集機制,借助搜索引擎反向爬行可以有效擴充站點,增加站點覆蓋范圍。
(4)效率高。在站點定位階段通過優先選取高相關度的站點,來盡早的訪問深層網絡站點;同時在站點內搜索階段,采用一系列精細的終止條件,在訪問每層鏈接時,利用鏈接樹分析避免訪問偏差以及對鏈接相關度進行排序,保證爬蟲在訪問盡可能少的頁面,同時覆蓋站點內盡可能多目錄下的鏈接以及相關度高的鏈接優先訪問,從而顯著的提高了爬蟲的效率。
附圖說明
圖1為本發明自適應增量式的深網數據源發現方法結構圖;
圖2為本發明的站點定位階段中站點收集的處理流程圖;
圖3為本發明的站點定位階段中站點排序的處理流程圖;
圖4為本發明的站內搜索階段中頁面抓取的處理流程圖;
圖5為本發明的站內搜索階段中鏈接選取的處理流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310733599.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新型復合彈性紗線、紡織織物及其制備方法和裝置
- 下一篇:高速車輛檢測器





