[發明專利]一種基于哈希方法的多標記學習的學習方法有效
| 申請號: | 201510089183.3 | 申請日: | 2015-02-27 |
| 公開(公告)號: | CN104715021B | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 吳建盛;孫永;胡海峰 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 汪旭東 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 方法 標記 學習 設計 | ||
本發明公開了一種基于哈希方法的多標記學習的學習方法,該方法是利用哈希算法與基于貝葉斯統計學的多標記學習算法相結合,該方法有效地利用標記之間的相關性以提高多標記學習模型的預測性能,利用近鄰的特性,將標記和標記的近鄰引入到后驗概率的計算中,充分考慮了標記之間的相關性,提高了算法的準確性;利用MinHash算法解決大規模數據的多標記學習中標記空間往往更加高維和稀疏的問題;利用位置敏感哈希(LSH)進行近鄰查找解決大規模數據的學習問題,可以進行快速高效的近鄰查找,提高了多標記學習算法的可擴展性。
技術領域
本發明涉及機器學習的技術領域,尤其涉及一種基于哈希方法的多標記學習的學習方法。
背景技術
在傳統的監督學習框架中,樣本一般具有明確的單一的語義標記,即:每個樣本示例只屬于一個類別,在這個監督學習框架下已經提出多種算法并取得良好的效果。然而,在很多現實世界的應用中,研究對象其語義標記通常是不唯一的,往往存在一個樣本可被分配一組多重標記的情況。例如,在文本分類中,一篇新聞報道可能涵蓋某個事件的多個方面,因此,應該被分配給多個主題(比如,政治和經濟);在生物信息學中,一個基因或蛋白質往往具有多個功能;在圖像注釋中,一幅圖像往往可以被多個主題詞注釋。這就使得對于只考慮明確、單一的語義的傳統監督學習框架難以取得好的效果。為了使多義性對象中含有的多種語義信息能夠直觀地反映,一種顯而易見的方式就是為該對象明確地賦予具有合適類別標記的標記集合。基于以上分析,一種針對多義性對象的學習建模工具,多標記學習框架由此而產生。在多標記學習框架下,樣本由一個示例和對應的多個標記構成,學習的目標是將多個適當的標記賦予未知的示例。
隨著機器學習理論與應用研究的深入,多標記學習已成為機器學習領域的熱點研究方向之一。由于多標記分類與現實應用緊密相關,針對多標記分類問題的研究具有重要的理論和應用價值。多標記學習是一個具有挑戰性的研究課題,過去主要應用于文本分類領域,而現在引起了越來越多的研究人員的興趣,并應用到很多新的領域,如音樂分類、蛋白質功能分類、Web挖掘、互聯網海量數據信息檢索以及圖像和視頻的語義分類等。
經過多年的發展,在傳統的多標記學習問題上,研究者們已提出了許多經典算法,如基于決策樹的方法、基于神經網絡的方法、基于K近鄰的方法、基于核的方法、基于支持向量機的方法、基于集成學習的方法等等。
然而,現在互聯網中每天產生的數據數以千萬,樣本的數量變的很大,維數也變得很高,并且往往很稀疏,傳統的多標記學習算法往往很難適用,隨著數據的增加,計算時間隨著樣本的數量會產生指數級的增長,而且數據的存儲代價也會變得非常高。
傳統的多標記學習算法在大規模數據中的應用中面臨著很多挑戰,主要有:1)如何有效的利用標記之間的相關性以提高模型的預測性能是多標記學習最核心的問題之一。傳統的基于貝葉斯統計學的算法采用了一階策略來求解多標記學習問題對標記進行訓練,并沒有考慮其他標記對標記的影響,即在模型構建過程中忽略標記之間的相關性,通過考慮標記之間的相關性,可以提高分類的準確性。2)在大規模數據的多標記學習中,標記空間往往更加高維和稀疏。在多標記學習的的訓練過程中,需要對樣本的標記進行計算,由于標記的高維性,計算復雜度會大幅度增加,訓練過程會變的很慢,而如何有效利用標記的稀疏性,對標記進行快速的計算,減小計算時間是多標記學習在大規模數據中應用時需要面對的重點問題。3)在大規模數據的多標記學習中,樣本空間數量往往巨大。傳統多標記學習算法中,訓練的樣本數量一般較小。然而,在大規模數據場景下,樣本的數量大幅增加,計算復雜度會產生指數級的增長,另外,存儲代價也會變得十分高昂,如何將多標記學習算法應用到大規模數據中是目前研究的熱點之一。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510089183.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多媒體熱點分析方法
- 下一篇:一種軟件定義網絡的規則動態下發方法和裝置





