[發明專利]一種基于商品屬性歸一和聚類識別產品的方法有效
| 申請號: | 201310538245.5 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103559267B | 公開(公告)日: | 2016-11-30 |
| 發明(設計)人: | 趙金杰;吳尉林;王放 | 申請(專利權)人: | 北京中搜網絡技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/06 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 商品 屬性 識別 產品 方法 | ||
1.一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:所述方法包括以下步驟:
I、建立標準庫;
II、根據商品頁信息和所述標準庫對所述商品進行屬性整理;
III、輸出標準商品信息;
IV、根據所述標準商品信息和所述標準庫對所述商品的屬性聚類;
V、標準商品信息獲得產品ID。
2.如權利要求1所述的一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:所述步驟I的標準庫包括商品品類信息,所述商品品類信息包括:品類ID、品類對應的關鍵屬性表。
3.如權利要求1所述的一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:所述步驟II包括以下步驟:
S201、根據商品頁信息獲得商品信息,將商品的屬性及其對應的屬性值生成md5;
S202、對商品的屬性和對應屬性值進行權重排序;
S203、將商品的屬性名加上所述商品的品類ID并生成md5;
S204、在標準庫中查找所述品類ID的屬性表,查找成功則進入S205,否則進入步驟S208;
S205、獲得所述屬性的信息,所述信息包括屬性ID、屬性關鍵性類型;
S206、對所述屬性的信息標注并歸一,處理所述屬性的屬性值串并生成md5;
S207、查詢標準庫對屬性值歸一處理,若成功則屬性歸一成功,否則屬性歸一失敗,標注為普通屬性;
S208、查詢失敗,將所述屬性標注為噪音屬性。
4.如權利要求1所述的一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:根據所述步驟II獲得所述商品的品類ID,并對所述商品的屬性進行歸一處理,獲得所述步驟III的標準商品信息。
5.如權利要求1所述的一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:所述步驟IV包括以下步驟:
S401、輸入標準商品信息;
S402、判斷所述商品的數據中是否有唯一屬性,是則進入S403,否則進入S404;
S403、將所述唯一屬性的屬性值生產md5設為聚類后的產品ID,識別完成;
S404、根據標準庫中的產品辨別屬性信息識別所述商品的所屬于的標準產品;
S405、判斷是否識別成功,成功則返回所述標準庫中標準產品ID,否則返回商品頁ID作為產品ID;
S406、通過商品價格和參考價格區間進行價格過濾,成功則獲得彼岸準快中的產品ID,否則返回商品頁DOCID作為產品ID;
S407、獲得并返回產品ID的標準商品信息。
6.如權利要求1所述的一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:根據所述步驟IV獲得標準商品信息的產品ID,輸出所述步驟V中具有產品ID的標準商品信息。
7.如權利要求5所述的一種基于商品屬性歸一和聚類識別產品的方法,其特征在于:所述步驟S406包括以下步驟:
S4061、查找所述商品對應的品類ID的品牌表,將所述品類ID的品牌表中每一個品牌在所述商品標題中查找;以標題中第一個出現的品牌為準,查找并記錄品牌在商品標題中出現的位置;
S4062、以所述S4061中記錄的品牌在標題中出現的位置為起始點A,依次查找所述品牌下的標準產品的其他關鍵屬性在標題中的位置,獲得其他關鍵屬性均在所述標題中出現的標準產品,記錄其他關鍵屬性在標題中出現的位置L,計算出現位置L距離起點A的平均規則距離值Ln;
S4063、命中多個標準產品,輸出最小平均規則距離值Ln值對應的標準產品信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中搜網絡技術股份有限公司,未經北京中搜網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538245.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種側板可翻轉安裝的山地車
- 下一篇:一種鐵水包運輸掛車





