[發明專利]商品的多標簽自動分類方法及系統在審
| 申請號: | 202310215322.7 | 申請日: | 2023-03-06 |
| 公開(公告)號: | CN116186626A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 李燕北;朱俊;姚澤坤;夏竟翔;戴智鑫;閆晨光 | 申請(專利權)人: | 歐冶工業品股份有限公司 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;G06F18/214;G06F16/35;G06F40/289;G06Q30/0601 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李源 |
| 地址: | 201900 上海市寶山*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 商品 標簽 自動 分類 方法 系統 | ||
本發明提供了一種商品的多標簽自動分類方法及系統,包括:步驟S1:進行數據預處理,對數據進行去重,形成多標簽數據,對描述信息進行分詞和去停用詞,保留與分類相關性高于預設標準的有效詞組;步驟S2:將有效詞組轉化為向量,對向量組計算平均值,得到特征向量;步驟S3:將特征向量及其所屬的多標簽數據作為學習樣本,訓練多標簽分類器,設置閾值過濾輸出結果。本發明提出了一種多標簽分類方法,允許商品被劃分到多個相關類別下,具有更高的使用價值;本發明通過多標簽分類的方法,解決了商品信息與類別不正交的情況,使分類結果具有多樣性,更能滿足實際應用需求。
技術領域
本發明涉及電商信息技術領域,具體地,涉及一種商品的多標簽自動分類方法及系統。
背景技術
通常情況下,商品的屬性劃分是存在交叉的,不同的分類考慮角度會造成不同的分類結果,例如從用途的分類和從材質的分類,而常見的商品分類方法只能分到唯一的類別下,與實際情況不符,進而會造成下游任務的失效,如基于商品類別的搜索結果缺失等問題。
專利文獻CN113792786A(申請號:CN202111073371.9)公開了一種商品對象自動分類方法及其裝置、設備、介質、產品,所述方法包括:獲取商品對象,提取其相對應的摘要文本及商品圖片;分別對所述摘要文本及所述商品圖片進行特征提取,相應獲得文本特征向量及圖片特征向量,將文本特征向量與圖片特征向量拼接為綜合特征向量;基于所述綜合特征向量進行多層次分類處理,獲得所述商品對象相對應的標簽集,所述標簽集包括多層次分類結構中多個構成層次隸屬關系的分類標簽;為所述商品對象標記所述標簽集中的各個分類標簽。但該發明沒有解決商品信息與類別不正交的情況。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種商品的多標簽自動分類方法及系統。
根據本發明提供的一種商品的多標簽自動分類方法,包括:
步驟S1:進行數據預處理,對數據進行去重,形成多標簽數據,對描述信息進行分詞和去停用詞,保留與分類相關性高于預設標準的有效詞組;
步驟S2:將有效詞組轉化為向量,對向量組計算平均值,得到特征向量;
步驟S3:將特征向量及其所屬的多標簽數據作為學習樣本,訓練多標簽分類器,設置閾值過濾輸出結果。
優選地,在所述步驟S1中:
對描述信息和類別完全重復的數據進行去重,保留一條數據,將相同描述信息對應不同類別的數據進行標簽合并,形成多標簽數據;對描述信息進行分詞和去停用詞操作,保留與分類相關性高于預設標準的有效詞組;
去重:對于商品描述信息和所屬類別完全相同的商品數據,只保留一條,其余刪除;
標簽合并:對于商品描述信息相同,但所屬類別不同的數據,合并為一條,類別信息為該商品所屬的全部類別的集合;
分詞:將連續的字序列按照預設規范重新組合成詞序列;
去停用詞:加載本地的停用詞詞典,停用詞詞典的內容是與商品描述信息無關的字詞,掃描分詞結果中的詞組,若是停用詞表中的內容,則從分詞結果中刪除該詞。
優選地,在所述步驟S2中:
將有效詞轉化為向量表示,對由詞組得到的向量組進行平均處理,得到能夠進行機器計算的特征向量;
采用Word2vec編碼方式里的CBOW模式,CBOW根據上下文預測目標詞訓練得到詞向量,CBOW的學習過程如下:
輸入層:目標單詞上下文的t個單詞,每個單詞用one-hot編碼表示,為1×V大小的矩陣,V表示詞匯大小;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于歐冶工業品股份有限公司,未經歐冶工業品股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310215322.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:供應商智能推薦方法及系統
- 下一篇:一種多功能標本轉運箱





