[發明專利]一種基于不充分模態信息的半監督網頁自動分類方法有效
| 申請號: | 201710163950.X | 申請日: | 2017-03-20 |
| 公開(公告)號: | CN106934055B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 王魏;詹德川;郭翔宇 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210046 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 不充分 信息 監督 網頁 自動 分類 方法 | ||
本發明公開了一種基于不充分模態信息的半監督網頁自動分類方法,基于加權協同訓練算法,在訓練分類器的過程中給數據分配不同的權值。本發明方法能夠減少由于不充分模態特征引起的數據不一致性對分類過程所帶來的影響,從而具有更好的分類精度與更強的魯棒性。此外,本發明方法僅需要少量的有標記訓練數據,能夠利用未標記數據的信息,因而可用于標記訓練數據匱乏的場景。
技術領域
本發明涉及一種新型的多模態半監督網頁自動分類方法,屬于計算機人工智能數據識別技術領域。
背景技術
互聯網中存在著大量數據,從這些數據中往往能夠挖掘出許多有價值的信息,比如說,通過分析用戶在新聞網站上的瀏覽記錄,可以發現其感興趣的新聞類型,從而更準確地為其推送新聞。為了對這些數據進行分析,經常需要對數量龐大的網頁進行分類(例如將收集到的新聞根據其內容分成不同的類別),而手工分類的效率很低,會產生大量的人力成本,因此產生了使用計算機自動化分類的需求。機器學習技術是一類從數據中自動分析獲得規律并對未知數據進行預測的技術。該技術通常需要在包含大量數據對象的訓練集上構建預測模型。訓練集中的每個數據對象都有一個代表其類別歸屬的類別標記,而通常獲取這些標記需要人工參與,導致大量的人力消耗在標注訓練集上。為此,機器學習領域中發展出了一類稱為半監督學習的方法,該類方法利用大量未標注數據輔助少量有標注數據進行學習。網頁數據的特點在于,每個網頁的數據特征自然具有兩種模態——網頁本身的內容以及指向該網頁的鏈接。但實際應用中訓練數據的模態特征信息經常是不充分的,這使得一些訓練數據與最優分類器不一致,從而導致學習算法的分類性能下降。本發明提出了一種基于新型的加權協同訓練的半監督網頁分類方法,該方法能夠辨別出訓練集中的那些可能導致算法性能下降的網頁數據對象,并給它們賦予較低的權值,從而在實際應用中具有較高的分類準確率,且有更好的魯棒性。此外,該方法可以利用未標記數據的信息,因而僅需要少量的有標記訓練數據,可以進一步減少人力消耗,故具有更大的實用價值。
發明內容
發明目的:實際應用中網頁對象的模態信息往往是不充分的,這意味著有些訓練樣本的標記與該模態上的最優分類器可能會不一致,從而影響最終的性能,針對上述問題,本發明提出一種基于不充分模態信息的半監督網頁自動分類方法,辨別出訓練集中的那些可能導致算法性能下降的網頁數據對象,并給它們賦予較低的權值,從而在實際應用中具有較高的分類準確率,且有更好的魯棒性。
技術方案:本發明提出一種基于不充分模態信息的半監督網頁自動分類方法,基于加權協同訓練算法,通過給不同的數據分配不同的權值,包括如下步驟:
步驟1:構建訓練數據集:選取網頁對象庫,其中的每個網頁對象包含兩個模態:即網頁內容模態以及指向該網頁的鏈接模態(部分研究者也將多模態數據稱為多源數據),然后通過人工標注的方法為庫中的少量網頁對象提供一個類別標記,這些有類別標記的網頁對象庫稱為初始的有標記訓練數據,其和剩余的大量未標記網頁對象一同構成訓練數據集。
步驟2:提取網頁對象特征:提取訓練數據集中網頁對象的特征,將所有網頁對象轉化成相應的特征向量,由于網頁對象包含兩個模態,最終得到的每個網頁對象的特征向量也分為兩部分,即雙模態特征向量對。
步驟3:訓練分類器:選擇基分類器,將訓練數據的雙模態特征向量對和基分類器類型輸入到加權協同訓練算法中,訓練后得到兩個分類器。
步驟4:待測網頁分類:提取待測網頁在兩個模態上的特征向量分別輸入到訓練得到的兩個分類器中,得到待測網頁的兩個預測結果,再在兩個預測結果中選擇置信度較高的作為最終分類標記。
所述特征提取方法為選擇網頁文本中的每個詞出現的次數作為該網頁的特征,或者選擇文本的長度作為該網頁的特征,假設兩個模態上特征的個數分別為d1和d2,那么每個網頁對象就可以對應到d1和d2維歐式空間的兩個特征向量。
所述基分類器包括支持向量機,決策樹,神經網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710163950.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





