[發明專利]一種半監督多視圖學習的網頁分類方法有效
| 申請號: | 201910652836.2 | 申請日: | 2019-07-18 |
| 公開(公告)號: | CN110413924B | 公開(公告)日: | 2020-04-17 |
| 發明(設計)人: | 荊曉遠;賈曉棟;訾璐;黃鶴;姚永芳;彭志平 | 申請(專利權)人: | 廣東石油化工學院 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州潤禾知識產權代理事務所(普通合伙) 44446 | 代理人: | 凌衍芬 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 監督 視圖 學習 網頁 分類 方法 | ||
本發明涉及互聯網技術領域,更具體地,涉及一種半監督多視圖學習的網頁分類方法,包括:從網頁中獲取數據,建立訓練集;通過已標記訓練集訓練分類器;通過訓練好的分類器對已標記訓練集和未標記訓練集進行編碼,獲取樣本特征;對樣本特征進行密度聚類,獲取聚類結果;根據聚類結果對未標記訓練集的樣本進行分類。本方案使用已標記訓練集對分類器進行訓練,在現有的多視圖分類方法的基礎上加入正交約束和對抗相似約束,再通過訓練好的分類器對訓練集里所有的數據進行密度聚類標記,最后對分類器進行準確率驗證,多次迭代上述過程能使分類器的分類性能得到提升。
技術領域
本發明涉及互聯網技術領域,更具體地,涉及一種半監督多視圖學習的網頁分類方法。
背景技術
計算機技術日新月異,互聯網已成為了人類社會不可或缺的一部分。隨著移動互聯網和web2.0的迅速發展,過去的幾十年互聯網的網頁數目呈現爆炸式的增長。網上信息的日益增多,給網頁信息檢索和分析(TSIRA)的研究帶來了更多難題,對網頁信息檢索和分析有了更高的要求。網頁分類在網頁信息檢索和分析中具有重要的作用,如何給數目龐大的網頁進行更快速更準確的分類,使用戶可以更方便地找到需要的信息已成為了這一領域的難題。
網頁信息作為一種多視圖數據,通常以網頁視圖和鏈接視圖表示,其不僅包含視圖之間的共享信息,還包含視圖內的專有信息。比如,網頁視圖和鏈接視圖會共享一些詞句,同時網頁視圖可能包含更多其他信息。
網頁分類最主要的研究就是如何對網頁這種多視圖數據進行最有效的利用,對于此目前已有不少優秀的方案,但這些方案一般都存在著缺陷,難以適用于大多數的場景。其中,具有代表性的為:典型相關性分析(CCA,Canonical correlation analysis)的子空間學習,此方法將不同視圖視為一個潛在共享子空間的不同描述,目標是將不同視圖映射至共同的空間內,通過最大化不同視圖的相似性利用視圖間的共享信息。這種方法雖然利用視圖間的共享信息,但卻無法對每個視圖內的專有信息進行有效的利用,進一步地提高分類準確率。于是研究者們又提出了一種能夠同時利用共享專有兩種信息的方法,即在CCA的子空間學習的基礎上,使用深度學習對特征表現能力進行增強,提升網頁分類的表現。此方法在人臉識別,親緣關系鑒定和行人重識別上有不錯的效果。但由于缺乏約束,基于共享專有的子空間學習的方法會引入數據冗余性,導致模型的特征學習能力退化。針對學習能力退化的問題,學者Avrim Blum和Tom Mitchell提出可以用半監督訓練中的協同訓練解決,即讓兩個視圖上的分類器能夠為對方標記數據。而kim等人則提出了一個基于標簽傳播的半監督訓練方法,利用點擊記錄將類標記傳播至未標記的相似網頁進行訓練數據的擴增。還有的提出雙視圖直推支持向量機的方法利用多種網頁表示和未標記數據提升分類性能。
上述這些方法雖然都實現了網頁分類,但隨著時間的推移,僅僅利用了多視圖數據的部分信息,沒有充分考慮到視圖間、視圖內以及類間、類內的全部信息的話,會導致網頁分類發生錯誤。因此目前亟需一種能全面考慮信息,準確給網頁分類的方法。
發明內容
為了解決上述問題,本發明提供一種半監督多視圖學習的網頁分類方法,該方法能使網頁分類更準確。
本發明采取的技術方案是:
一種半監督多視圖學習的網頁分類方法,包括:
步驟S1:從網頁中獲取數據,建立訓練集;
其中,訓練集包括已標記訓練集和未標記訓練集;
已標記訓練集為進行過信息識別的數據集;
未標記訓練集為未進行信息識別的數據集;
步驟S2:通過已標記訓練集訓練分類器,使用驗證集計算分類器的準確率;
步驟S3:通過訓練好的分類器對已標記訓練集和未標記訓練集進行編碼,獲取樣本特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東石油化工學院,未經廣東石油化工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910652836.2/2.html,轉載請聲明來源鉆瓜專利網。





