[發明專利]基于綜合主題詞垂直搜索和聚焦爬蟲的網頁分類識別方法在審
| 申請號: | 201611247621.5 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106649823A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 掌明;盧艷宏;楊瑞;樊紀山;王經卓;宋永獻;孫巧榆;張金學;洪露 | 申請(專利權)人: | 淮海工學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市領專知識產權代理有限公司11590 | 代理人: | 林輝輪 |
| 地址: | 222005 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 綜合 主題詞 垂直 搜索 聚焦 爬蟲 網頁 分類 識別 方法 | ||
1.一種基于綜合主題詞垂直搜索和聚焦爬蟲的網頁分類識別方法,其特征在于,創建爬蟲后,通過頁面內容分析算法得到網址搜索表Search,具體步驟如下:
(1)利用聚焦爬蟲技術獲取網頁的源文件;
(2)判斷該網頁是否同時匹配相關內容頁面及目錄頁面的結構特征,若不匹配,則轉步驟(9);
(3)利用正則表達式抽取網頁的結構化信息;
(4)調用綜合主題詞關聯度計算方法,得到該頁面的綜合主題詞關聯度值,所述綜合主題詞關聯度計算方法的具體步驟為:
①構建M個主題詞的綜合權重向量q=(q1,q2,...,qM),其中qi表示第i個主題詞在查詢表達式中的權值;
②獲取待提取特征項頁面;
③頁面中單詞詞干提取:提取文本的分詞做過濾處理,過濾掉抽象的或對檢索無關的單詞,并去除無關的前綴和后綴;
④計算提取出來的單詞的詞頻度;
⑤過濾掉詞頻度小于設定閥值T的特征項,選取n個特征項構成頁面特征項庫,設為p=(p1,p2,…,pn);
⑥若特征庫中的特征項位于<title>標簽中,設r=5.0,若特征項在<meta>中,設r=3.0,若特征項在<a>中,設r=2.0,其他情況下設r=1.0。構成特征項權重向量集合r=(r1,r2,…,rn);
⑦對M個主題詞依次在頁面特征項庫中查找其對應的pi,若在特征項庫中未找到,則記為0,構成的向量為p′=(p1′,p2′,…,pn′);
⑧計算該頁面中的綜合主題詞關聯度R,其公式如下:
(5)讀取頁面的綜合主題詞關聯度R,并判斷是否大于設定的閥值α,若不是,則放棄該頁面,轉步驟(1);
(6)若該頁面的綜合主題詞關聯度R大于設定的閥值α,則把該頁面的綜合主題詞關聯度R值填入關聯表Relevance中;
(7)利用正則表達式從該頁面的結構化信息中提取出新鏈接;
(8)把該將新鏈填寫到對應的Relevance表中,并按照Relevance值的降序方式排序;
(9)判斷Relevance表是否為空,若為空,則轉步驟(13);
(10)取出Relevance表中的第一個URL,判斷此URL是否滿足搜索策略,若不滿足,則轉向步驟(9);
(11)將滿足搜索策略的URL加入到網址搜索表Search中,同時刪除Relevance表中的第一個URL;
(12)轉向步驟(1);
(13)結束;
得到網址搜索表Search后,讀取網址搜索表Search,然后進行獲取與主題詞關聯度大的網頁的URL及分類信息的工作。
2.根據權利要求1所述的一種基于綜合主題詞垂直搜索和聚焦爬蟲的網頁分類識別方法,其特征在于,步驟(2)中引入URL正則表達式學習器來獲取與主題詞相關內容頁面的URL正則表達式、與主題詞相關的目錄頁面的正則表達式,通過正則表達式驗證該網頁是否匹配相關內容頁面及目錄頁面的結構特征。
3.根據權利要求1所述的一種基于綜合主題詞垂直搜索和聚焦爬蟲的網頁分類識別方法,其特征在于,步驟(4)⑤中選取n個特征項構成頁面特征項庫時,若頁面中詞頻度大于T的特征項個數大于n,則按詞頻度從大到小選取n個特征項;若頁面中詞頻度大于T的特征項個數小于n,則不足的詞頻度特征項全部為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮海工學院,未經淮海工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611247621.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:茶幾(BY188)
- 下一篇:一種行為預測方法和裝置





