[發(fā)明專利]一種篩選網(wǎng)頁上鏈接的方法和裝置有效
| 申請?zhí)枺?/td> | 200810071574.2 | 申請日: | 2008-08-12 |
| 公開(公告)號: | CN101650715A | 公開(公告)日: | 2010-02-17 |
| 發(fā)明(設(shè)計(jì))人: | 陳奮;騰達(dá);吳鴻偉 | 申請(專利權(quán))人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 361008福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 篩選 網(wǎng)頁 鏈接 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種搜索過濾的方法和裝置。
背景技術(shù)
隨著信息網(wǎng)絡(luò)的發(fā)展,大量的電子數(shù)據(jù)通過信息網(wǎng)絡(luò)存儲(chǔ)和發(fā)送,信息網(wǎng)絡(luò)已成為信息獲取的主要方式。搜索引擎是一種從海量的數(shù)據(jù)信息中尋找滿足某種需要的信息的重要工具,在現(xiàn)代信息獲取應(yīng)用中,發(fā)揮著約來越重要的作用。網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)的一個(gè)重要組成部分,它起著分析網(wǎng)頁、獲取鏈接以及下載網(wǎng)頁的作用。
網(wǎng)頁鏈接中存在著很多對于某種搜索目無用的鏈接,如何過濾掉這些無用鏈接,是提高網(wǎng)絡(luò)爬蟲運(yùn)行效率的關(guān)鍵技術(shù),特別是在垂直搜索領(lǐng)域,這種技術(shù)尤其顯得至關(guān)重要。
現(xiàn)有技術(shù)中,網(wǎng)絡(luò)爬蟲對搜索中無用鏈接的過濾的方式主要有兩種:(1)采用人工設(shè)定過濾規(guī)則進(jìn)行過濾的方式;(2)采用內(nèi)容過濾方式。采用人工設(shè)定過濾規(guī)則進(jìn)行過濾的方式在一定程度上能夠達(dá)到過濾的效果,但這種方式工作量大、不靈活,如網(wǎng)站進(jìn)行了改動(dòng),過濾規(guī)則設(shè)置也必須進(jìn)行改動(dòng)。采用內(nèi)容過濾的方式必須將網(wǎng)頁的內(nèi)容下載分析,這一定程度上加重了網(wǎng)絡(luò)爬蟲的工作量以及后臺(tái)分析的工作量,降低了搜索效率。
發(fā)明內(nèi)容
本發(fā)明實(shí)施方式公開了一種篩選網(wǎng)頁上鏈接的方法和一種篩選網(wǎng)頁上鏈接的裝置。
本發(fā)明實(shí)施方式公開的一種篩選網(wǎng)頁上鏈接的方法,包括:
從搜索任務(wù)網(wǎng)站的首頁及部分相關(guān)頁面中提取鏈接;
拆分所述鏈接為域名部分和相對路徑部分;
以所述域名和搜索任務(wù)網(wǎng)站的域名相同的每個(gè)鏈接的相對路徑為一行,組成一個(gè)鏈接矩陣;
將所述鏈接矩陣轉(zhuǎn)換為數(shù)值矩陣;
通過智能算法,將所述數(shù)值矩陣的行按不同類別分組;根據(jù)所述分組的行數(shù)目,提取與所述搜索任務(wù)網(wǎng)站相關(guān)鏈接的特征表達(dá)式,和/或過濾與所述搜索任務(wù)網(wǎng)站無關(guān)鏈接的特征表達(dá)式。
本發(fā)明實(shí)施方式公開的一種篩選網(wǎng)頁上鏈接的的裝置,包括:
鏈接提取模塊,用于從搜索任務(wù)網(wǎng)站的首頁及部分頁面中提取鏈接;
鏈接拆分模塊,用于拆分所述鏈接為域名部分和相對路徑部分;
智能分析模塊,用于對域名和搜索任務(wù)網(wǎng)站的域名相同的鏈接的相對路徑進(jìn)行智能分析;
鏈接特征篩選模塊,與所述智能分析模塊相連,包括:
組合模塊,用于以所述域名和搜索任務(wù)網(wǎng)站的域名相同的每個(gè)鏈接的相對路徑為一行,組成一個(gè)鏈接矩陣;
轉(zhuǎn)換模塊,用于將所述鏈接矩陣轉(zhuǎn)換為數(shù)值矩陣;
分組模塊,用于通過智能算法,將所述數(shù)值矩陣的行按不同類別分組;
篩選子模塊,根據(jù)所述分組的行數(shù)目,判斷分組所對應(yīng)的鏈接是否為與所述搜索任務(wù)網(wǎng)站相關(guān)鏈接,提取與搜索任務(wù)網(wǎng)站相關(guān)鏈接的特征表達(dá)式,和/或過濾與搜索任務(wù)網(wǎng)站無關(guān)的鏈接的特征表達(dá)式。
本發(fā)明實(shí)施方式通過提取與搜索任務(wù)網(wǎng)站相關(guān)的鏈接,過濾與搜索任務(wù)網(wǎng)站無關(guān)的鏈接,實(shí)現(xiàn)了網(wǎng)絡(luò)爬蟲工作效率的提高。
附圖說明
圖1為本發(fā)明一個(gè)實(shí)施方式提供的一種篩選網(wǎng)頁上鏈接的方法示意圖;
圖2為本發(fā)明另一實(shí)施方式提供的介紹網(wǎng)頁特征的提取和與搜索任務(wù)無關(guān)鏈接的過濾方法的示意圖;
圖3為本發(fā)明再一個(gè)實(shí)施方式公開的一種篩選網(wǎng)頁上鏈接的裝置結(jié)構(gòu)圖;
圖4為網(wǎng)站類別辨別決策樹示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合實(shí)施方式對本發(fā)明做進(jìn)一步地詳細(xì)描述。本發(fā)明實(shí)施方式對網(wǎng)頁鏈接進(jìn)行特征提取,對網(wǎng)頁上的鏈接進(jìn)行篩選,提取有價(jià)值信息的鏈接,過濾無用的鏈接,從而達(dá)到過濾鏈接的目的從而提高網(wǎng)絡(luò)爬蟲的工作效率和搜索準(zhǔn)確度。
本發(fā)明一個(gè)實(shí)施方式提供了一種篩選網(wǎng)頁上鏈接的方法,如圖1所示,包括步驟:
步驟101、從搜索任務(wù)網(wǎng)站的首頁及部分相關(guān)頁面中提取鏈接;
本步驟中,鏈接的提取可以通過鏈接提取算法實(shí)現(xiàn)。這里的部分相關(guān)頁面指的是首頁中包含的鏈接所對應(yīng)的頁面。還可以預(yù)先總結(jié)各種網(wǎng)站類型的規(guī)則,并下載所述搜索任務(wù)網(wǎng)站的首頁及部分相關(guān)頁面內(nèi)容,根據(jù)首頁和部分相關(guān)頁面內(nèi)容,以及各種網(wǎng)站類型的規(guī)則,判斷所述搜索任務(wù)網(wǎng)站所屬的網(wǎng)站類型。網(wǎng)站類型的規(guī)則,反映了網(wǎng)頁中鏈接的布局、有價(jià)值信息鏈接的特征數(shù)據(jù)和特征的表達(dá)形式。然后根據(jù)搜索任務(wù)網(wǎng)站的網(wǎng)站類型提取鏈接,這樣提高了提取鏈接的效率。
步驟102、拆分所述鏈接為域名部分和相對路徑部分;
本步驟中,還可以首先過濾掉域名和所述搜索任務(wù)網(wǎng)站的域名不同的鏈接,這些鏈接,可視為和搜索任務(wù)網(wǎng)站直接不相關(guān)的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門市美亞柏科信息股份有限公司,未經(jīng)廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810071574.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





