[發明專利]一種基于增量貝葉斯算法的主題爬蟲方法有效
| 申請號: | 201810472102.1 | 申請日: | 2018-05-17 |
| 公開(公告)號: | CN108710672B | 公開(公告)日: | 2020-04-14 |
| 發明(設計)人: | 張雷;王姍姍;許磊;吳和生;陸恒楊 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9535;G06F16/951;G06K9/62 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 增量 貝葉斯 算法 主題 爬蟲 方法 | ||
一種基于增量貝葉斯算法的主題爬蟲方法,使用增量學習思想訓練貝葉斯分類器的步驟,基于增量貝葉斯算法進行在線主題爬蟲的步驟:輸入初始訓練集和增量訓練集;對初始訓練集和增量訓練集進行分詞等預處理;根據初始訓練集和樸素貝葉斯原理訓練出初始分類器,針對增量訓練集中的數據,使用初始分類器對樣本進行分類,根據分類結果進行分類模型的更新;初始化優先級隊列、已訪問鏈接集合、增量貝葉斯分類器,并將初始網頁鏈接加入到優先級隊列中;根據網頁鏈接是否含有主題關鍵詞,如果含有,則對增量貝葉斯分類模型進行更新。每次選擇優先級隊列中優先級最高的網頁進行網頁下載,重復上述步驟直到滿足條件。
技術領域
本發明涉及一種基于增量貝葉斯算法的主題爬蟲技術,特別適用于實時增量爬取網頁的應用場景
背景技術
網絡的龐大性以及復雜性導致網頁信息的獲取面臨著諸多挑戰,傳統網絡爬蟲是按照一定的規則,自動地抓取萬維網信息的程序或者腳本,從初始網頁鏈接逐漸向整個互聯網擴散,主要目的是在一定的時間內獲得大量的互聯網數據。
在當前網絡信息規模呈現指數增長的背景下,傳統網絡爬蟲的使用受到信息采集速度、價值密度、專業程度的限制,返回網頁通常伴隨著很多無價值信息,無法滿足用戶的智能化需求。
目前的主題爬蟲技術,在計算鏈接的優先級時,往往是通過錨文本與網頁文本的相關度加權得出,此外在分類算法計算文本與主題之間的相關度時,忽略了隨著時間推移,原有網頁樣本空間的分布會有所改變,如果使用不變的分類模型來計算相關度,會使得計算結果有很大的誤差,不適用于實際中新數據源源不斷到來的場景。
發明內容
本發明所要解決的技術問題是,針對上述問題,本發明提供了一種基于增量貝葉斯算法的主題爬蟲:使用增量貝葉斯分類模型計算文本與主題之間的相關度,并根據鏈接相關信息對增量貝葉斯分類模型進行優化與改進,同時引入鏈接文本,與錨文本、網頁文本共同確定鏈接的優先級。
為解決上述問題,本發明技術方案是:一種基于增量貝葉斯算法的主題爬蟲方法,包括使用增量學習思想訓練貝葉斯分類器的步驟,基于增量貝葉斯算法進行在線主題爬蟲的步驟:
步驟100,輸入初始訓練集和增量訓練集;
步驟101,對初始訓練集和增量訓練集進行分詞等預處理;
步驟102,根據初始訓練集和樸素貝葉斯原理訓練出初始分類器,初始分類器主要包含類先驗概率p(ci)和特征的類條件概率p(wk|ci),分類模型公式為:
其中,wk為樣本的第k個特征,ci為第i個類別。
步驟103,針對增量訓練集中的數據,使用初始分類器對樣本進行分類,根據分類結果進行分類模型的更新;
步驟104,如果分類結果正確,則類先驗概率p(ci)的更新公式為:
特征的類條件概率p(wk|ci)的更新公式為
其中,N為所有文檔總數,Ni為類別為ci的文檔總數,wk為測試樣本的第k個特征,dt為測試樣本,ct為初始分類器預測的類別。
步驟105,如果分類錯誤,則保持類先驗概率不變,特征的類條件概率p(wk|ci)的更新公式為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810472102.1/2.html,轉載請聲明來源鉆瓜專利網。





