[發(fā)明專利]一種基于匹配學(xué)習(xí)的多標(biāo)簽分類學(xué)習(xí)方法有效
| 申請?zhí)枺?/td> | 201810072493.8 | 申請日: | 2018-01-25 |
| 公開(公告)號: | CN108256583B | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計)人: | 翟書杰;李晨 | 申請(專利權(quán))人: | 北京東方科諾科技發(fā)展有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京市商泰律師事務(wù)所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 匹配 學(xué)習(xí) 標(biāo)簽 分類 學(xué)習(xí)方法 | ||
1.一種基于匹配學(xué)習(xí)的多標(biāo)簽分類學(xué)習(xí)方法,其特征在于,包括如下步驟:
S1:收集互聯(lián)網(wǎng)中的客戶端數(shù)據(jù),對所述客戶端數(shù)據(jù)進行特征值計算,得到訓(xùn)練集D;
S2:遍歷所述訓(xùn)練集D,設(shè)定所述訓(xùn)練集D中的負(fù)標(biāo)簽集合和正標(biāo)簽集合;
S3:計算所述訓(xùn)練集D中特征集合的嵌入式表征E;
S4:計算所述正標(biāo)簽集合的嵌入式表征Z+和所述負(fù)標(biāo)簽集合的嵌入式表征Z-;
S5:對所述嵌入式表征E和所述嵌入式表征Z+作損失計算得到正標(biāo)簽損失值,對所述嵌入式表征E與所述嵌入式表征Z-作損失計算得到負(fù)標(biāo)簽損失值;
S6:依據(jù)所述正標(biāo)簽損失值和所述負(fù)標(biāo)簽損失值,采用梯度下降算法對所述訓(xùn)練集D進行訓(xùn)練,得到訓(xùn)練模型;
S7:當(dāng)所述訓(xùn)練模型的損失值不再下降時,訓(xùn)練結(jié)束,并保存所述嵌入式表征Z+和與所述嵌入式表征Z+對應(yīng)的正標(biāo)簽集合,否則返回S2;
S8:設(shè)定測試集,利用所述測試集對所述訓(xùn)練模型進行測試;
所述S1還包括:
所述客戶端數(shù)據(jù)包括客戶端標(biāo)簽數(shù)據(jù),提取所述客戶端標(biāo)簽數(shù)據(jù)的文本特征和圖像特征,并作特征值計算,從而得到多標(biāo)簽學(xué)習(xí)的訓(xùn)練集D={(x1,w1,y1)...(xn,wn,yn)},其中x表示特征集合,w表示所述x對應(yīng)的特征值集合,y表示標(biāo)簽集合,1...n表示集合中數(shù)量;
所述S2還包括:
S201:對所述訓(xùn)練集D作隨機混洗;
S202:以步長為M遍歷隨機混洗后的訓(xùn)練集,每步長產(chǎn)生一個特征集合Dm;
S203:在每個所述特征集合Dm中隨機采樣N個負(fù)標(biāo)簽,得到所述標(biāo)簽集合y中的負(fù)標(biāo)簽集合,所述標(biāo)簽集合y中除去所述負(fù)標(biāo)簽集合剩余的標(biāo)簽為正標(biāo)簽集合;
所述S3還包括:
通過模型的特征嵌入層得到所述特征集合x對應(yīng)的嵌入向量集合ex,對所述嵌入向量集合ex作加權(quán)平均得到所述特征集合x的特征嵌入式表征E,即
其中,K表示所述特征集合x中的特征數(shù)量,k表示所述特征集合x中第k個元素;
所述S5還包括:
1)利用Noise Contrastive Loss函數(shù)對所述嵌入式表征E和所述嵌入式表征Z+作損失計算,得到正標(biāo)簽損失值L+(E,Z+),即
其中,當(dāng)所述嵌入式表征E和所述嵌入式表征Z+之間的余弦相似度較高時,NCL較小,反之則NCL較大;
2)利用NCL函數(shù)對所述嵌入式表征E和所述嵌入式表征Z-作損失計算,得到負(fù)標(biāo)簽損失值L-(E,Z-),即
其中,當(dāng)所述嵌入式表征E和所述嵌入式表征Z-之間的余弦相似度較高時,NCL較大,反之則NCL較小。
2.根據(jù)權(quán)利要求1所述的多標(biāo)簽分類學(xué)習(xí)方法,其特征在于,所述S4還包括:
1)通過模型的標(biāo)簽嵌入層得到所述正標(biāo)簽集合對應(yīng)的嵌入向量集合z+y,對所述嵌入向量集合z+y作加權(quán)平均得到所述正標(biāo)簽集合的嵌入式表征Z+,即
其中,K'表示所述標(biāo)簽集合y中的正標(biāo)簽數(shù)量,k表示所述標(biāo)簽集合y中第k個元素;
2)通過模型的標(biāo)簽嵌入層得到所述負(fù)標(biāo)簽集合對應(yīng)的嵌入向量集合z-y,對所述嵌入向量集合z-y作加權(quán)平均得到所述負(fù)標(biāo)簽集合的嵌入式表征Z-,即
其中,K'表示所述標(biāo)簽集合y中的負(fù)標(biāo)簽數(shù)量,k表示所述標(biāo)簽集合y中第k個元素。
3.根據(jù)權(quán)利要求1所述的多標(biāo)簽分類學(xué)習(xí)方法,其特征在于,所述S8還包括:
設(shè)定測試集(xt,wt),利用所述測試集(xt,wt)對所述訓(xùn)練模型進行測試,具體的測試流程如下:
S801:根據(jù)S3中方式計算所述測試集(xt,wt)的特征集合的嵌入式表征Et;
S802:所述嵌入式表征Z+和與所述嵌入式表征Z+對應(yīng)的正標(biāo)簽集合共同表示為訓(xùn)練集標(biāo)簽表征{Z},對所述嵌入式表征Et和所述訓(xùn)練集標(biāo)簽表征{Z}作余弦計算,返回所述訓(xùn)練集D與所述測試集(xt,wt)最相似的客戶端數(shù)據(jù)所對應(yīng)的標(biāo)簽集合;
S803:統(tǒng)計所述返回的標(biāo)簽集合中的標(biāo)簽頻率,返回頻率最高的K個標(biāo)簽作為預(yù)測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京東方科諾科技發(fā)展有限公司,未經(jīng)北京東方科諾科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810072493.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





