[發明專利]基于購物行為的商品聚類系統及其方法無效
| 申請號: | 200810085074.4 | 申請日: | 2008-03-17 |
| 公開(公告)號: | CN101251859A | 公開(公告)日: | 2008-08-27 |
| 發明(設計)人: | 李韶華 | 申請(專利權)人: | 北京科文書業信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100011北京市東城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 購物 行為 商品 系統 及其 方法 | ||
技術領域:
本發明涉及數據挖掘領域,尤其涉及商品聚類技術系統及其方法。
背景技術:
商品銷售領域,銷售商經常需要把不同商品根據相似性或相關性分成若干類,以方便管理和消費者的購買。傳統上這是由人工來做的。由于人的判斷有一定主觀性和疏忽性,這樣的分類可能并不完全準確。隨著數據挖掘技術的發展,越來越多的公司采用數據挖掘技術中聚類算法來輔助人工來做分類工作。
數據挖掘中把一堆對象分成若干類,有兩大類型:分類和聚類。數據挖掘中的分類特指事先給定一些類型,把每個對象分到最接近的類型里。而聚類指事先沒有指定類型,根據對象之間彼此相似程度,盡量把相近的商品歸于一類,差別大的分開到不同的類里,最終得到若干大類。
商品聚類的傳統技術是基于編輯提供的商品描述內容進行聚類,其特點是對于內容相似的商品聚類效果很好,但這需要每種商品有較詳細的文字描述,并且有自然語言處理的工具分析這些文字描述,技術門檻較高。另外,也有不少商品之間,從描述表面上看不到明顯聯系,但卻因為在實用中相互輔助,如毛巾和香皂盒;或者同屬一個興趣點,如變形金剛DVD和高達游戲,而經常被消費者同時購買。對這些問題,基于內容的聚類基本上是無能為力的。
目前尚未發現國內外有類似的基于用戶購買行為的商品聚類技術。
發明內容:
為了克服上述方法的缺點,本發明目的在于提供一種新的商品聚類技術,它以消費者的集體購買習慣對商品聚類,而不同于傳統的根據內容相似性聚類。
被同一消費者共同購買的商品常常是相關的。如果某幾種商品被許多消費者都同時購買,那幾乎可以斷定它們是相關的,并且可能其他消費者也會同時購買這些商品。把這些商品歸于一類,消費者更容易找到感興趣的一批商品,從而做到了以消費者為中心。
本發明的技術方案如圖1所示,由兩部分組成:
一、數據準備部分:
它從保存了以前大量用戶購買行為的數據庫,且主要是每次每個人同時購買了哪些商品的數據庫中找出所有被共同購買次數大于某個閾值TB的商品對。共同購買只有1次的商品,噪音比例非常高,必須濾掉,要求閾值TB≥2,具體數值視數據稠密程度而定,數據稠密了可取高些,這樣聚類更準確,數據稀疏了可以取低些。也就是說如果取的值過大,導致保留的共同購買商品對過少,則難以聚得比較大的類,這樣需把TB調低。這些找出的商品對以及相應的購買頻率是執行聚類的基礎。按公式計算這些商品對之間的距離:
按以下公式計算它們間的相似度——商品對之間的原始距離:
其中,在具體實例中:
向量a:表示包含商品a的訂單,
向量b:表示包含商品b的訂單,
分子含義:同時包含a和b的訂單數,
分母含義:表示包含商品a的訂單數量的開方和表示包含商品b的訂單數量的開方的乘積,作用是去除噪音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科文書業信息技術有限公司,未經北京科文書業信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810085074.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:相位內插
- 下一篇:用于前處理喂入自動絡筒機的筒管的裝置和方法





