[發(fā)明專利]基于綜合主題詞垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法在審
| 申請?zhí)枺?/td> | 201611247621.5 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106649823A | 公開(公告)日: | 2017-05-10 |
| 發(fā)明(設計)人: | 掌明;盧艷宏;楊瑞;樊紀山;王經(jīng)卓;宋永獻;孫巧榆;張金學;洪露 | 申請(專利權)人: | 淮海工學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市領專知識產(chǎn)權代理有限公司11590 | 代理人: | 林輝輪 |
| 地址: | 222005 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 綜合 主題詞 垂直 搜索 聚焦 爬蟲 網(wǎng)頁 分類 識別 方法 | ||
技術領域
本發(fā)明涉及網(wǎng)頁搜索引擎技術領域,具體的涉及一種基于綜合主題詞垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法。
背景技術
隨著垂直搜索引擎的日益流行,作為垂直搜索引擎的關鍵技術—聚焦爬蟲也顯得越來越重要。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇地訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,獲取所需要的信息;爬蟲最主要的處理對象就是URL,它根據(jù)URL地址取得所需要的文件內(nèi)容,然后對它進行進一步的處理。
隨著互聯(lián)網(wǎng)的快速增長,網(wǎng)絡上的信息量也在呈爆炸性的呈現(xiàn),人們特別關注如何在海量的信息中獲取有效的信息,通用搜索引擎給人們提供了很多的便利,但無法滿足個性化、多樣化和精確化的需求,所以垂直搜索的出現(xiàn)受到了普遍關注,它搜索某一個特定行業(yè)或者主題的信息,針對性和目的性更強;通過主題詞來提供語義信息查詢,能滿足特定用戶的特殊需求;它更加專業(yè),返回的結果也更具有針對性,使用很少的服務器資源可以覆蓋某一特定行業(yè)、主題的數(shù)據(jù)。而聚焦爬蟲作為垂直搜索的核心構件,根據(jù)指定的主題詞訪問互聯(lián)網(wǎng)上相關的網(wǎng)頁與鏈接,抓取需要的信息。
基本的垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法包括下列步驟:
(1)輸入待查詢綜合主題詞;
(2)創(chuàng)建爬蟲;
(3)讀取預設網(wǎng)址導航站點的URL列表;
(4)判斷URL列表是否為空,若為空,則轉步驟(8);
(5)取出一個站點URL,將其放入未訪問的URL列表(UVURL列表)中;
(6)判斷UVURL列表是否為空,若為空,則轉步驟(3);
(7)從UVURL列表中取出一個URL,根據(jù)表VURL判斷此URL是否被訪問過,若是,則轉步驟(6);
(8)對取得的URL進行網(wǎng)頁源碼獲取,利用垂直搜索技術和聚焦爬蟲技術對網(wǎng)頁內(nèi)容解析,獲取此站點下的網(wǎng)頁類別信息及各個類別中對應的網(wǎng)址信息;
(9)將網(wǎng)頁類別信息及各個類別中對應的網(wǎng)址信息加入到Category列表中;
(10)從表UVURL中刪除URL,并將其添加到VURL中,轉步驟(6);
(11)結束。
該方法存在一定的難度,有如下原因:聚焦爬蟲很難從待爬行URL隊列中選出與主題信息關系密切的爬行隊列;網(wǎng)絡爬蟲在URL提取過程中,采用深度、寬度等搜索策略,容易產(chǎn)生“維數(shù)災”問題;現(xiàn)有的很多開源爬蟲系統(tǒng)從抓取的網(wǎng)頁中獲取結構化信息的功能較弱;現(xiàn)有的聚焦爬蟲策略很難適應網(wǎng)頁的內(nèi)容和結構的動態(tài)變化。綜上所述,傳統(tǒng)的聚焦爬蟲技術不同類別的網(wǎng)頁識別率較低,必須另辟蹊徑。
發(fā)明內(nèi)容
1.要解決的技術問題
本發(fā)明要解決的技術問題在于提供一種基于綜合主題詞垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法,通過對基于綜合主題詞的垂直搜索和聚焦爬蟲技術研究,我們能夠較好的解決下列問題:
(1)利用超鏈接價值和綜合主題詞相關性價值構建待爬行URL隊列。
(2)能夠根據(jù)用戶特定的綜合主題詞的特殊搜索得到具有針對性的精準搜索結果。
(3)通過綜合主題詞垂直搜索和聚焦爬蟲獲取未知URL所屬的網(wǎng)頁類別。
2.技術方案
為解決上述問題,本發(fā)明采取如下技術方案:
通過對網(wǎng)站觀察和分析發(fā)現(xiàn)如下規(guī)律:網(wǎng)站基本上由目錄頁面和內(nèi)容頁面組成,目錄頁面包含許多指向各種不同內(nèi)容頁面的鏈接,而內(nèi)容頁面則包括屬于該頁面內(nèi)容的網(wǎng)站鏈接。屬于同一類別的頁面之間有著很強的相似性,即有相似的結構,可以通過正則表達式來獲取頁面的結構化信息。為了適應網(wǎng)頁內(nèi)容不定期的變化,更好的抽取頁面特征的網(wǎng)頁結構化信息,引入了URL正則表達式學習器來適應網(wǎng)頁的動態(tài)變化和解決主題詞孤島問題,需要同時獲取與主題詞相關頁面的URL正則表達式、與主題詞相關的目錄頁面的正則表達式,只抓取和這兩類正則表達式匹配的URL。與此同時本發(fā)明提出了基于綜合主題詞的定向深度優(yōu)先搜索策略。
一種基于綜合主題詞垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法,包括如下步驟:
(1)輸入待查詢綜合主題詞;
(2)創(chuàng)建爬蟲;
(3)調(diào)用頁面內(nèi)容分析算法;
(4)讀取網(wǎng)址搜索表Search;
(5)判斷網(wǎng)址搜索表Search是否為空,若為空則轉步驟(15);
(6)取出Search表中第一個URL,將其放入UVURL列表中;
(7)刪除Search表中的第一個URL;
(8)判斷UVURL列表是否為空,若為空則轉步驟(4);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮海工學院,未經(jīng)淮海工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611247621.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:茶幾(BY188)
- 下一篇:一種行為預測方法和裝置





