[發明專利]商品匹配方法及系統無效
| 申請號: | 201110288717.7 | 申請日: | 2011-09-23 |
| 公開(公告)號: | CN102332137A | 公開(公告)日: | 2012-01-25 |
| 發明(設計)人: | 黃哲鏗 | 申請(專利權)人: | 紐海信息技術(上海)有限公司 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 薛琦;王婧荷 |
| 地址: | 201203 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 商品 匹配 方法 系統 | ||
技術領域
本發明涉及一種商品匹配方法及系統,特別是涉及一種能自動識別不同網站的同種商品的商品匹配方法及系統。
背景技術
在電子商務蓬勃發展的今天,商品信息的比較、分析顯得尤為重要。然而,各個網站對同一個商品的描述往往是不統一的,比如:同樣一只牙膏,A網站描述成“黑人牙膏潔白護齒家庭裝500g”,B網站描述成“特價熱銷黑人牙膏全家裝500克”,這給電腦識別和比較帶來了困難,因為電腦是不了解語意的。由于商品描述不盡相同,用戶在搜索某一商品時往往會無法搜全所要的商品,這從某種程度上給用戶帶來了一定的困擾。
因此,期望能找到一種能消除商品描述上的誤差、讓電腦通過一定的方法識別語意、并且能應用于自動識別不同網站的同種商品的商品匹配方法及系統。
發明內容
本發明要解決的技術問題是為了克服現有技術中各個網站對同一個商品的描述往往是不統一的、相同商品不同表述會給用戶帶來困擾的缺陷,提供一種能消除商品描述上的誤差、讓電腦通過一定的方法識別語意、并且能應用于自動識別不同網站的同種商品的商品匹配方法及系統。
本發明是通過下述技術方案來解決上述技術問題的:
一種商品匹配方法,其特點在于,其包括以下步驟:
先針對每件商品:
根據商品的商品描述確定商品類別,并根據商品類別調用與該商品類別相應的詞庫;
將商品描述分為至少兩個要素并為每個要素分配要素權值,其中以Pi來表示第i個要素的要素權值,以n表示要素的個數,所有要素的要素權值之和為1;要素權值的分配,跟商品類別有關,例如:若商品是書籍類的,那么ISBN碼(International?Standard?Book?Number,國際標準書號)要素的要素權值是最高的,作者要素、出版社要素的要素權值就相對可以低一些;若商品是數碼產品的,那么品牌要素、型號要素的要素權值比較高,顏色要素、產地要素等要素的要素權值可以低一些;
利用該詞庫并按照每個要素將商品描述切詞成至少一個要素關鍵詞,以及格式化該至少一個要素關鍵詞以統一要素關鍵詞的格式;
再針對每兩件商品:
為每個要素建立分組映射,該分組映射為該兩件商品的同一要素的要素關鍵詞的集合;比如:切詞后A商品的品牌要素是:“nokia、諾基亞”,B商品的品牌要素是“諾基亞”,那么“nokia、諾基亞”跟“諾基亞”就是該品牌要素的分組映射;
計算每個分組映射的相似度,該相似度表示該分組映射中相同的要素關鍵詞占所有要素關鍵詞的比例,其中以Fi來表示第i個要素的分組映射的相似度;
計算該兩件商品的匹配分值,
將該匹配分值與一閾值比較,若該匹配分值大于等于該閾值,則該兩件商品相匹配,確定該兩件商品為同一商品;若該匹配分值小于該閾值,則該兩件商品不相匹配,確定該兩件商品為不同商品。針對不同的商品類別,閾值是不一樣的;有時即使是同一商品類別,當調用的詞庫變化后,閾值也可能隨之變化。
優選地,當第i個要素的分組映射的相似度Fi為0時,將該第i個要素的要素權值Pi轉移至其他要素的要素權值上。也就是說,該分組映射中的兩件商品的所有要素關鍵詞都不同,即該分組映射中不存在相同的要素關鍵詞,這種情況下,該要素的要素權值將轉移分配至其他要素的要素權值,例如按一定比例轉移至其他要素的要素權值。
優選地,采用一同義詞詞庫統一同義詞的方式、采用統一大小寫的方式和采用替換半全角字符的方式中的一種或多種來格式化該至少一個要素關鍵詞以統一要素關鍵詞的格式。例如,可以先構建一同義詞庫,該同義詞詞庫包括:簡稱、術語、學名、全稱、拼音、英文等都會收錄到同義詞庫,之后利用該同義詞詞庫統一要素關鍵詞,將相同含義的要素關鍵詞統一用語,方便后續的比較。對于一些用于表示商品型號、單位的外語字符、數字等,采用格式化的方式來減少以不同方式撰寫的外語字符對之后要素關鍵詞比較的影響,如:N908、n908、N九零八,會被格式化成n908,以方便后續的比較。
優選地,該詞庫為品牌詞庫、商品通用名稱詞庫、單位詞庫、屬性詞庫、型號詞庫和常規詞詞庫中的一種或多種。
優選地,該利用該詞庫并按照每個要素將商品描述切詞成至少一個要素關鍵詞的步驟之前還包括以下步驟:采用常規詞詞庫切除商品描述中的介詞和/或助詞。
優選地,該至少兩個要素選自以下要素:品牌要素、商品通用名稱要素、單位要素、屬性要素和型號要素。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紐海信息技術(上海)有限公司,未經紐海信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110288717.7/2.html,轉載請聲明來源鉆瓜專利網。





