[發明專利]商品數據的處理方法、裝置及電子設備在審
| 申請號: | 202010551355.5 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111915391A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 高源;朱禹軻 | 申請(專利權)人: | 北京邁格威科技有限公司 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 何少巖 |
| 地址: | 100000 北京市海淀區科*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 商品 數據 處理 方法 裝置 電子設備 | ||
本發明提供了一種商品數據的處理方法、裝置及電子設備,涉及數據處理技術領域,包括獲取不同來源的原始商品數據;對原始商品數據進行統一化預處理,得到預處理后的商品數據;對預處理后的商品數據進行相似度匹配計算;基于相似度匹配計算的結果對預處理后的商品數據進行聚類,以使屬于同一商品實體的商品數據聚合為一簇。本發明可以有效減少商品庫中不同來源的商品數據的數據冗余,降低了對不同來源的商品數據同時處理的難度,進一步提升了后期數據維護的效率。
技術領域
本發明涉及數據處理技術領域,尤其是涉及一種商品數據的處理方法、裝置及電子設備。
背景技術
商品庫是電商、零售等行業在選品上新、業務運營、數據獲取等各個業務流程中必不可少的工具和系統,幾乎為每一個業務環節都直接給出了數據支持。目前,將不同來源的商品數據引入商品庫時,由于不同的數據源、不同的平臺甚至同一平臺的不同商家的商品數據結構差異性較大,導致商品庫中存在大量的冗余數據,同時對不同來源的異構數據進行處理難度較大,且不便于后期數據的維護。
發明內容
有鑒于此,本發明的目的在于提供一種商品數據的處理方法、裝置及電子設備,可以有效減少商品庫中不同來源的商品數據的數據冗余,降低了對不同來源的商品數據同時處理的難度,進一步提升了后期數據維護的效率。
為了實現上述目的,本發明實施例采用的技術方案如下:
第一方面,本發明實施例提供了一種商品數據的處理方法,包括:獲取不同來源的原始商品數據;對原始商品數據進行統一化預處理,得到預處理后的商品數據;對預處理后的商品數據進行相似度匹配計算;基于相似度匹配計算的結果對預處理后的商品數據進行聚類,以使屬于同一商品實體的商品數據聚合為一簇。
進一步,對原始商品數據進行統一化預處理,得到預處理后的商品數據的步驟,包括:按照指定的數據格式對原始商品數據進行對齊處理,得到結構化商品數據;指定的數據格式包括數據字段的排列順序;每種數據字段對應一種商品數據屬性;對結構化商品數據進行清洗處理,將清洗后的結構化商品數據作為預處理后的商品數據;其中,清洗處理包括以下操作中的一種或多種:冗余數據刪除操作、商品屬性衍生操作、商品單位統一操作和無效字符刪除操作。
進一步,對預處理后的商品數據進行相似度匹配計算的步驟,包括:將預處理后的商品數據中的至少兩條數據條目分別組成數據條目對,根據字符串相似度算法對數據條目對進行相似度匹配計算,得到每個數據條目對所對應的匹配相似度。
進一步,根據字符串相似度算法對數據條目對進行相似度匹配計算的步驟,包括:將多個數據條目對分配給不同的計算節點;通過每個計算節點基于字符串相似度算法對接收到的數據條目對進行相似度匹配計算。
進一步,基于相似度匹配計算的結果對預處理后的商品數據進行聚類,以使屬于同一商品實體的商品數據聚合為一簇的步驟,包括:針對預處理后的商品數據中的每條數據條目,基于相似度匹配計算的結果確定該數據條目的關聯數據條目;其中,關聯數據條目為與該數據條目的匹配相似度大于預設第一閾值的數據條目;根據每條數據條目及其對應的關聯數據條目進行數據聚類,以使屬于同一商品實體的商品數據聚合為一簇。
進一步,根據每條數據條目及其對應的關聯數據條目進行數據聚類,以使屬于同一商品實體的商品數據聚合為一簇的步驟,包括:將每條數據條目分別作為一個數據節點,選取一個數據節點作為當前節點;基于當前節點對應的關聯數據條目執行聚集操作,得到當前節點對應的商品節點簇;其中,當前節點對應的商品節點簇中包含有當前節點及當前節點的關聯節點;將未能加入至當前節點對應的商品節點簇的其它數據節點作為新的當前節點,重復執行聚集操作,直至所有數據節點都加入至相應的商品節點簇;將每個商品節點簇中所包含的數據節點對應的數據條目分別進行聚集,得到屬于同一商品實體的商品數據;其中,不同的商品節點簇對應的商品實體不同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京邁格威科技有限公司,未經北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010551355.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種飛機機翼骨架外形測量點選取方法
- 下一篇:一種刀具快速測量裝置及方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





