[發明專利]一種基于自然語言處理的跨平臺商品匹配方法及系統在審
| 申請號: | 202110357895.4 | 申請日: | 2021-04-01 |
| 公開(公告)號: | CN112906396A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 蔣哲宇;考文鵬 | 申請(專利權)人: | 翻車信息科技(杭州)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F16/25;G06K9/62;G06N3/04;G06N3/08;G06Q30/06 |
| 代理公司: | 北京匯信合知識產權代理有限公司 11335 | 代理人: | 盧亮輝 |
| 地址: | 311100 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 平臺 商品 匹配 方法 系統 | ||
1.一種基于自然語言處理的跨平臺商品匹配方法,其特征在于,包括:
獲取待匹配的各平臺商品數據,并進行數據預處理;
根據預處理后的數據獲取各商品的標題特征向量和屬性特征向量;
將各商品的所述標題特征向量和所述屬性特征向量進行整合,得到各商品的所述全量特征向量;
對所有商品按照平臺進行分類,再按照統一分類規則,將各平臺商品劃分為多個子集,得到各平臺下多個商品全量特征向量子集;
計算不同平臺下相對應的所述商品全量特征向量子集中各商品的相似度,根據計算結果獲取到不同平臺中相匹配的商品。
2.根據權利要求1所述的方法,其特征在于:所述根據預處理后的數據獲取各商品的標題特征向量和屬性特征向量;包括:
在預處理后的數據中對商品標題信息進行命名實體識別,針對各所述商品標題中識別到的各商品詞分別計算TF-IDF特征,并將各所述商品標題映射到向量空間中得到標題特征向量;
在預處理后的數據中對商品屬性信息進行ETL和特征工程處理得到各商品的屬性特征向量。
3.根據權利要求2所述的方法,其特征在于:所述在預處理后的數據中對商品標題信息進行命名實體識別,針對各所述商品標題中識別到的各商品詞分別計算TF-IDF特征;包括:
在預處理后的數據中對商品標題信息進行命名實體識別,得到所有商品關鍵詞;
構建商品詞字典和停用詞字典;
根據所述關鍵詞對匹配的正向和負向影響分別添加至商品詞字典和停用詞字典;
對各商品標題中包含在商品詞字典中的商品詞計算TF-IDF特征。
4.根據權利要求1所述的方法,其特征在于,所述數據預處理包括:
將以非結構化形式存儲在平臺的數據轉化為結構化數據,得到所述商品標題信息和所述商品屬性信息;
對同平臺下的重復商品數據進行去重,缺失數據進行填充,雜質數據進行丟棄。
5.根據權利要求1所述的方法,其特征在于:所述對所有商品按照平臺進行分類,再按照統一分類規則,將各平臺商品劃分為多個子集后,各平臺得到的商品全量特征向量子集個數相同,且一一對應。
6.根據權利要求1所述的方法,其特征在于,所述計算不同平臺下相對應的所述商品全量特征向量子集中各商品的相似度,根據計算結果獲取到不同平臺中相匹配的商品;包括:
選擇一個平臺作為基準平臺;
選擇一個待匹配平臺中的一個商品全量特征向量子集與基準平臺中對應商品全量特征向量子集進行商品相似度匹配;
預設相似度閾值,獲取到符合所述相似度閾值的多組匹配商品;
依次完成各待匹配平臺中對應基準平臺中該商品全量特征向量子集的商品相似度匹配;
依次完成各待匹配平臺中各商品全量特征向量子集與基準平臺中對應商品全量特征向量子集的商品相似度匹配,獲得所有匹配商品。
7.根據權利要求6所述的方法,其特征在于:所述得到符合預設相似度閾值的多組匹配商品;包括:
預設最大循環次數;
依次計算待匹配平臺中該商品全量特征向量子集中各商品和基準平臺中對應商品全量特征向量子集中各商品的相似度;
循環取出相似度最高的一組商品,與預設的所述相似度閾值進行比較,若大于或等于所述相似度閾值,則將該組商品記為一組匹配結果,直至達到所述最大循環次數;
若小于所述相似度閾值,則進入下一待匹配平臺。
8.根據權利要求6或7所述的方法,其特征在于:預設匹配結果組數,所述匹配結果組數不超過本次匹配的基準平臺商品全量特征向量子集和待匹配平臺中商品全量特征向量子集中商品個數較多的一個;
當匹配結果組數不滿足條件時,進入下一待匹配平臺。
9.根據權利要求1所述的方法,其特征在于:所述統一分配規則包括商品類目及品牌。
10.一種基于權利要求1~9所述的基于自然語言處理的跨平臺商品匹配方法的系統,其特征在于,包括:預處理模塊、特征提取模塊、商品全量特征整合及分類模塊和商品匹配模塊;
所述預處理模塊,用于:
獲取待匹配的各平臺商品數據,并進行數據預處理;
所述特征提取模塊,用于:
根據預處理后的數據獲取各商品的標題特征向量和屬性特征向量;
所述商品全量特征整合及分類模塊,用于:
將各商品的所述標題特征向量和所述屬性特征向量進行整合,得到各商品的所述全量特征向量;
對所有商品按照平臺進行分類,再按照統一分類規則,將各平臺商品劃分為多個子集,得到各平臺下多個商品全量特征向量子集;
所述商品匹配模塊,用于:
計算不同平臺下相對應的所述商品全量特征向量子集中各商品的相似度,根據計算結果獲取到不同平臺中相匹配的商品。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于翻車信息科技(杭州)有限公司,未經翻車信息科技(杭州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110357895.4/1.html,轉載請聲明來源鉆瓜專利網。





