[發明專利]一種基于不充分模態信息的半監督網頁自動分類方法有效
| 申請號: | 201710163950.X | 申請日: | 2017-03-20 |
| 公開(公告)號: | CN106934055B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 王魏;詹德川;郭翔宇 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210046 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 不充分 信息 監督 網頁 自動 分類 方法 | ||
1.一種基于不充分模態信息的半監督網頁自動分類方法,其特征在于,基于加權協同訓練算法,通過給不同的數據分配不同的權值,提高分類精度和魯棒性,包括如下步驟:
步驟1:構建訓練數據集:選取網頁對象庫,其中的每個網頁對象包含兩個模態:即網頁內容模態以及指向該網頁的鏈接模態,然后通過人工標注的方法為庫中的少量網頁對象提供一個類別標記,這些有類別標記的網頁對象庫稱為初始的有標記訓練數據,其和剩余的大量未標記網頁對象一同構成訓練數據集;
步驟2:提取網頁對象特征:提取訓練數據集中網頁對象的特征,將所有網頁對象轉化成相應的特征向量,得到網頁的雙模態特征向量對;所述網頁對象特征包括網頁文本每個詞出現的次數和網頁文本的長度;
步驟3:訓練分類器:選擇基分類器,將訓練數據的雙模態特征向量對和基分類器類型輸入到加權協同訓練算法中,訓練后得到兩個分類器;所述基分類器包括支持向量機、決策樹、神經網絡;所述加權協同訓練算法包括如下步驟:
步驟3.1:選定每輪需要新標記的樣本數目N,衰減系數α,最大迭代輪數T,松弛參數ξ;將迭代計數器初始化為t=0,將所有初始有標記訓練數據的權值初始化為1/l,即兩個模態上的權值向量為:在初始有標記數據上根據權值訓練出兩個模態上的初始分類器和
步驟3.2:判斷是否達到最大迭代次數(即迭代次數是否滿足tT),若沒有,則使用當前的分類器和分別從未標記的訓練數據中選擇N個置信度最高的訓練樣本賦予標記,并添加到對方的有標記訓練集中,使得兩個模態上的有標記訓練樣本數目均增加到l+N(t+1),否則轉至步驟3.5,結束分類器訓練;
步驟3.3:置步驟3.2中新標記樣本的權值為表示模態,代表的第i個分量,令l+N(t+1)維向量為當前有標記訓練數據的權值向量,并由此訓練得到模態v上的新分類器
步驟3.4:分別在模態v=1,2求解下述優化問題,得到t+1輪迭代時需要的權值向量,再令迭代計數器t加1,轉至步驟3.2進行下一輪訓練,所述優化問題具體為:
其中,代表模態v第t+1輪迭代時需要的權值向量,代表的第i個分量,xv,i代表第i個樣本特征向量在模態v的部分,yi代表對應的樣本標記;
步驟3.5:輸出分類器和
步驟4:待測網頁分類:提取待測網頁在兩個模態上的特征向量分別輸入到訓練得到的兩個分類器中,得到待測網頁的兩個預測結果,再在兩個預測結果中選擇置信度較高的作為最終分類標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710163950.X/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





