[發明專利]一種基于匹配學習的多標簽分類學習方法有效
| 申請號: | 201810072493.8 | 申請日: | 2018-01-25 |
| 公開(公告)號: | CN108256583B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 翟書杰;李晨 | 申請(專利權)人: | 北京東方科諾科技發展有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 匹配 學習 標簽 分類 學習方法 | ||
本發明提供的基于匹配學習的多標簽分類學習方法,首先對客戶端數據進行特征值計算,得到訓練集;設定訓練集中的正負標簽;然后計算訓練集中特征集合的嵌入式表征E;計算正標簽的嵌入式表征Z+和負標簽的嵌入式表征Z?;接著對E和Z+作損失計算,對E與Z?作損失計算;依據正負損失值,采用梯度下降算法對訓練集進行模型訓練;當訓練模型的損失值不再下降時,訓練結束,否則再次訓練;最后采用測試集測試該訓練模型。本發明考慮了長尾標簽對傳統極大規模多標簽分類模型學習的不利影響,提出利用特征集合和標簽集合的匹配學習方法。此外,為保證模型能夠擴展到大規模數據集上,采用梯度下降算法的模型學習方式,既可保證模型并行化學習,還可支持模型在線增量學習。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種基于匹配學習和神經網絡模型的極大規模多標簽分類學習方法。
背景技術
隨著Web 2.0技術的迅速發展,互聯網中積累了大量用戶相關甚至是用戶生成的內容。在種類繁多的海量數據中,蘊含著豐富的且能夠反應用戶特征的信息,是對用戶進行畫像的重要數據支撐。在社會計算的研究中,用戶畫像一直是一個重要問題。用戶畫像,即用戶信息標簽化,為企業提供了用戶的基本信息,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。用戶畫像的核心任務就是為用戶打“標簽”。如何利用數據挖掘或機器學習的手段實現對用戶自動打標簽對于企業而言是一個巨大的挑戰。
通常,上述任務可以轉化為機器學習中的多標簽分類問題。但是,在海量社交媒體數據背景下,標簽的數量通常能夠達到數萬、數十萬甚至更多。傳統的多標簽分類學習算法難以擴展到如此規模的標簽數據上。并且,標簽數量上一定的規模后,會有長尾標簽等新問題出現。因此,需要設計新的模型和算法來處理這樣的數據。
目前一種主流的大規模標簽分類學習算法是基于嵌入的多標簽學習。這類算法采用低秩空間的假設,不能夠很好地處理長尾標簽。雖然近年來有針對長尾標簽的改進算法被提出,但是仍有著各自的缺陷。因此需要一種更加魯棒性的基于嵌入的大規模多標簽學習方法。
發明內容
本發明有鑒于大規模多標簽學習時面臨特征、標簽維度非常高,樣本量巨大以及標簽存在明顯長尾分布等特點,構建了一種基于匹配學習的極大規模多標簽分類學習方法。
為了實現上述目的,本發明采取了如下技術方案:
本發明提供了一種基于匹配學習的多標簽分類學習方法,包括如下步驟:
S1:收集互聯網中的客戶端數據,對所述客戶端數據進行特征值計算,得到訓練集D;
S2:遍歷所述訓練集D,設定所述訓練集D中的負標簽集合和正標簽集合;
S3:計算所述訓練集D中特征集合的嵌入式表征E;
S4:計算所述正標簽集合的嵌入式表征Z+和所述負標簽集合的嵌入式表征Z-;
S5:對所述嵌入式表征E和所述嵌入式表征Z+作損失計算得到正標簽損失值,對所述嵌入式表征E與所述嵌入式表征Z-作損失計算得到負標簽損失值;
S6:依據所述正標簽損失值和所述負標簽損失值,采用梯度下降算法對所述訓練集D進行訓練,得到訓練模型;
S7:當所述訓練模型的損失值不再下降時,訓練結束,并保存所述嵌入式表征Z+和與所述嵌入式表征Z+對應的正標簽集合,否則返回S2;
S8:設定測試集,利用所述測試集對所述訓練模型進行測試。
進一步地,所述S1還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京東方科諾科技發展有限公司,未經北京東方科諾科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810072493.8/2.html,轉載請聲明來源鉆瓜專利網。





