[發(fā)明專利]一種數(shù)據(jù)對象的分類系統(tǒng)、方法以及設(shè)備有效
| 申請?zhí)枺?/td> | 201810593682.X | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN110580489B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 何成劍;吳克文 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24;G06F18/2413;G06V10/778;G06F18/21;G06N3/08 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 李輝;喬媛 |
| 地址: | 英屬開曼*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 對象 分類 系統(tǒng) 方法 以及 設(shè)備 | ||
本申請?zhí)峁┝艘环N多分類模型的訓(xùn)練方法、數(shù)據(jù)對象的分類的方法、多分類模型的訓(xùn)練系統(tǒng)、數(shù)據(jù)對象的分類系統(tǒng)、計算設(shè)備以及計算機(jī)可讀存儲介質(zhì),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域。所述數(shù)據(jù)對象的分類方法包括:獲取待分類的數(shù)據(jù)對象;基于多分類模型對所述數(shù)據(jù)對象進(jìn)行分類預(yù)測,得到所述數(shù)據(jù)對象的分類數(shù)據(jù),所述多分類模型是基于多個數(shù)據(jù)對象樣本訓(xùn)練得到的,每個所述數(shù)據(jù)對象樣本具有不同的認(rèn)知屬性信息。本申請的技術(shù)方案訓(xùn)練得到的多分類模型可自動對未知的數(shù)據(jù)對象進(jìn)行認(rèn)知屬性信息分類,且由于在訓(xùn)練的過程中引入了多模態(tài)特征,因此提高了分類的準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種多分類模型的訓(xùn)練方法、數(shù)據(jù)對象的分類的方法、多分類模型的訓(xùn)練系統(tǒng)、數(shù)據(jù)對象的分類系統(tǒng)、計算設(shè)備以及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
隨著物流行業(yè)和地理信息技術(shù)的飛速發(fā)展,越來越多的電商平臺進(jìn)入了人們的視野,網(wǎng)絡(luò)購物成為人們?nèi)粘I畈豢苫蛉钡囊徊糠帧T陔娚填I(lǐng)域中面對海量商品,不論是平臺運(yùn)營還是買家、賣家,都需要對商品進(jìn)行有效的分類管理。不同類型或行業(yè)的商品進(jìn)行分類的維度不同。準(zhǔn)確有效地對商品進(jìn)行分類才能進(jìn)行后續(xù)的運(yùn)營。
現(xiàn)有技術(shù)中,對商品的類目識別主要有兩類途徑:一是設(shè)定一些簡單的規(guī)則,采用人工方式對商品進(jìn)行判定;二是針對商品圖片,采用機(jī)器學(xué)習(xí)的方法來進(jìn)行判定。上述的兩種方案存在如下技術(shù)缺陷:
1.覆蓋的商品類型相對較少。商品類目取決的因素較多,僅僅依靠人工,或者僅僅依賴商品圖片等信息,難以對很多商品的類目進(jìn)行識別。
2.沒有充分利用海量商品的信息。這些信息包括商品本身的信息以及商品之間的信息。
3.有的商品同時存在多種類目,難以給出合理的度量。
因此,如何研究和開發(fā)出一種新的方案,其能夠解決上述技術(shù)問題是本領(lǐng)域亟待解決的技術(shù)難題。
發(fā)明內(nèi)容
有鑒于此,本申請?zhí)峁┝艘环N多分類模型的訓(xùn)練方法、數(shù)據(jù)對象的分類的方法、多分類模型的訓(xùn)練系統(tǒng)、數(shù)據(jù)對象的分類系統(tǒng)、計算設(shè)備以及計算機(jī)可讀存儲介質(zhì),通過設(shè)置多個不同認(rèn)知屬性信息的數(shù)據(jù)對象樣本,構(gòu)建每個數(shù)據(jù)對象樣本的多模態(tài)特征,并基于機(jī)器學(xué)習(xí)模型對多模態(tài)特征進(jìn)行訓(xùn)練,得到多分類模型,將未知的數(shù)據(jù)對象送入訓(xùn)練得到的多分類模型,即可得到該數(shù)據(jù)對象的分類數(shù)據(jù),本申請訓(xùn)練得到的多分類模型可自動對未知的數(shù)據(jù)對象進(jìn)行認(rèn)知屬性信息分類,且由于在訓(xùn)練的過程中引入了多模態(tài)特征,因此提高了分類的準(zhǔn)確率。
為實現(xiàn)上述目的,本申請?zhí)峁┘夹g(shù)方案如下:
根據(jù)本申請的第一方面,提出了一種多分類模型的訓(xùn)練方法,包括:
獲取多個數(shù)據(jù)對象樣本,每個所述數(shù)據(jù)對象樣本具有不同的認(rèn)知屬性信息;
構(gòu)建所述數(shù)據(jù)對象樣本的多模態(tài)特征;
基于機(jī)器學(xué)習(xí)模型對所述多模態(tài)特征進(jìn)行訓(xùn)練,得到多分類模型;
所述構(gòu)建所述數(shù)據(jù)對象樣本的多模態(tài)特征包括根據(jù)所述數(shù)據(jù)對象樣本的多模態(tài)信息構(gòu)建多模態(tài)特征,所述多模態(tài)信息包括數(shù)據(jù)對象樣本的圖片信息以及文本信息;
根據(jù)所述數(shù)據(jù)對象樣本的多模態(tài)信息構(gòu)建多模態(tài)特征包括:
將所述數(shù)據(jù)對象樣本的圖片信息通過機(jī)器學(xué)習(xí)方式映射到特征空間,得到圖片信息表征向量;
將所述數(shù)據(jù)對象樣本的文本信息通過詞嵌入模型進(jìn)行訓(xùn)練,得到文本信息表征向量;
根據(jù)所述圖片信息表征向量確定圖片相似關(guān)系表征向量,包括:根據(jù)所述圖片信息表征向量確定數(shù)據(jù)對象樣本之間的圖片相似度,進(jìn)而得到圖片關(guān)系圖,并對其進(jìn)行采樣后輸入至詞嵌入模型,得到圖片相似關(guān)系表征向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810593682.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





