[發(fā)明專利]用于深層網(wǎng)頁數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法有效
| 申請?zhí)枺?/td> | 200710021883.4 | 申請日: | 2007-05-09 |
| 公開(公告)號: | CN101051313A | 公開(公告)日: | 2007-10-10 |
| 發(fā)明(設(shè)計(jì))人: | 崔志明;趙朋朋;方巍 | 申請(專利權(quán))人: | 崔志明;趙朋朋;方巍 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 蘇州創(chuàng)元專利商標(biāo)事務(wù)所有限公司 | 代理人: | 陶海鋒 |
| 地址: | 215001江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 深層 網(wǎng)頁 數(shù)據(jù)源 集成 發(fā)現(xiàn) 方法 | ||
1.一種用于深層網(wǎng)頁數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法,其特征在于,包括下列步驟:
(1)提供待查詢數(shù)據(jù)的主題,分別構(gòu)建站點(diǎn)根鏈接隊(duì)列和本地鏈接隊(duì)列,在站點(diǎn)根鏈接隊(duì)列中放入至少一個(gè)種子根鏈接地址,并根據(jù)其與主題的關(guān)系給定權(quán)重;
(2)如果本地鏈接隊(duì)列為空,則從站點(diǎn)根鏈接隊(duì)列中取權(quán)重最大的一個(gè)根鏈接地址,放入本地鏈接隊(duì)列中;從本地鏈接隊(duì)列中取評分最高的頁面鏈接,由爬行模塊下載該頁面;
(3)利用表單分類器對步驟(2)下載的頁面進(jìn)行處理,如其中含有表單查詢接口,則將其加入深層網(wǎng)頁數(shù)據(jù)源中;
(4)利用頁面分類器對步驟(2)下載的頁面進(jìn)行處理,所述頁面分類器采用最優(yōu)者優(yōu)先策略進(jìn)行主題判斷,如果主題評分小于設(shè)定閾值,則返回步驟(2);
(5)提取頁面中的鏈接地址,用鏈接分類器判斷鏈接地址是否有可能指向含有表單接口的頁面,并給該鏈接評分,所述鏈接分類器判斷方法為,提取錨文本、鏈接上下文文本、鏈接地址、鏈接中的圖片地址作為特征,進(jìn)行信息分詞并統(tǒng)計(jì)詞頻,得到該鏈接的特征向量X,采用樸素貝葉斯方法對鏈接信息進(jìn)行分類;對于評分大于設(shè)定值的鏈接,如為本地鏈接,則放入本地鏈接隊(duì)列,如為外部站點(diǎn)鏈接,則搜索站點(diǎn)根鏈接隊(duì)列,存在對應(yīng)的站點(diǎn)根鏈接時(shí),根據(jù)該鏈接的評分調(diào)整站點(diǎn)根鏈接的權(quán)重,不存在對應(yīng)的站點(diǎn)根鏈接時(shí),則將該鏈接的站點(diǎn)根鏈接加入站點(diǎn)根鏈接隊(duì)列,并根據(jù)評分設(shè)定根鏈接的權(quán)重;
(6)重復(fù)步驟(2)至步驟(5),實(shí)現(xiàn)深層網(wǎng)頁數(shù)據(jù)源的自動(dòng)爬行。
2.根據(jù)權(quán)利要求1所述的用于深層網(wǎng)頁數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法,其特征在于:所述步驟(5)中,對于本地鏈接,如果鏈接深度大于3時(shí),則拋棄,不放入本地鏈接隊(duì)列。
3.根據(jù)權(quán)利要求1所述的用于深層網(wǎng)頁數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法,其特征在于:所述步驟(4)中,先采用頁面實(shí)例對頁面分類器進(jìn)行訓(xùn)練,然后對于從爬行模塊得到的新頁面用訓(xùn)練好的頁面分類器分析并給予評分,所述評分反應(yīng)了該頁面屬于當(dāng)前主題的概率大小,只有當(dāng)該評分大于或等于一個(gè)先前設(shè)定的閾值θ時(shí),頁面中的鏈接和查詢接口才被繼續(xù)處理。
4.根據(jù)權(quán)利要求1所述的用于深層網(wǎng)頁數(shù)據(jù)源集成的數(shù)據(jù)源發(fā)現(xiàn)方法,其特征在于:所述步驟(3)中,所述表單分類器根據(jù)啟發(fā)規(guī)則確定查詢接口區(qū)域,僅當(dāng)頁面中的表單為查詢接口類表單時(shí),將其加入深層網(wǎng)頁數(shù)據(jù)源;所述啟發(fā)規(guī)則為:由TEXTAREA控件或PASSWORD控件構(gòu)成的網(wǎng)頁表單不是查詢接口,網(wǎng)頁表單中的控件數(shù)量少于3的網(wǎng)頁表單不是查詢接口。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于崔志明;趙朋朋;方巍,未經(jīng)崔志明;趙朋朋;方巍許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710021883.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補(bǔ)充方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個(gè)數(shù)據(jù)源調(diào)節(jié)工業(yè)自動(dòng)化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種動(dòng)態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問多數(shù)據(jù)源的方法及系統(tǒng)





