[發明專利]一種基于用戶偏好的自適應采樣方法有效
| 申請號: | 201610041393.X | 申請日: | 2016-01-22 |
| 公開(公告)號: | CN105740327B | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 譚鐵牛;王亮;吳書;郭韋昱 | 申請(專利權)人: | 天津中科智能識別產業技術研究院有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06K9/62 |
| 代理公司: | 天津市三利專利商標代理有限公司 12107 | 代理人: | 韓新城 |
| 地址: | 300465 天津市濱海新區天津經濟技*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 偏好 自適應 采樣 方法 | ||
本發明公開一種基于用戶偏好的自適應采樣方法。該方法根據用戶購買記錄中反映的用戶偏好及BPR模型的特性,自適應的構建三元組訓練數據,訓練BPR模型。與傳統的基于隨機采樣的訓練方法相比,本發明所設計的自適應采用算法,可以加速傳統BPR模型的訓練收斂,而且根據實際訓練過程中,每一輪模型訓練中個體模型參數數值變化不大,不足以引起商品排序上的劇烈變化這一實際觀察現象,本發明專門設計了減少三元組訓練實例構建開銷的策略,從而以比傳統隨機采樣增加很小一部分開銷為代價,在保證模型預測精確度不下降的同時,極大的加速BPR模型訓練的收斂。
技術領域
本發明涉及機器學習和模式識別技術領域,特別是涉及機器學習過程加速和自適應采樣方法。
背景技術
隨著互聯網中信息的膨脹,個性化排序技術在信息過載的時代顯得愈發重要。傳統的個性化排序的方法主要是基于對用戶顯式反饋(例如用戶對商品的評分)數據的分析,而現實中顯式反饋數據量有限,應用場景相對有限,大量的用戶興趣信息往往隱藏在用戶的隱含反饋中(例如用戶瀏覽過的網頁、用戶購買過的商品)。
貝葉斯個性化排序(BPR,Bayesian Personalized Ranking)是一種用于處理用戶隱含反饋的個性化排序方法,本發明中的算法和框架也是基于貝葉斯個性化排序方法的。
矩陣分解的方法在個性化排序中有著廣泛地應用,雖然它也可以處理隱含反饋,但在實際的數據集中正反饋的數量遠遠少于負反饋,從而很容易出現過擬合的問題。貝葉斯個性化排序方法假設用戶對他們所選擇的商品比其他未被其選擇的商品更感興趣,這個對于用戶興趣對比的假設使得訓練數據量大大增加,但是不同的訓練實例會對學習過程產生不同的影響,使用隨機采樣產生訓練樣本的策略經常使得訓練收斂速度很慢。為了加快學習過程,可以采用自適應的采樣策略來構建訓練數據,例如選取某個領域內流行的商品,或者根據用戶的喜好的不同來選取更有價值的商品對作為訓練數據,但這兩種方法都很難在采樣效率和預測效果上達成兼顧平衡。
發明內容
為了解決現有技術存在的上述技術問題,本發明提出一種基于用戶 偏好的自適應采樣方法,具體是一種機器學習中加速基于二元對訓練數據的個性化排序模型的方法,其可在保證模型預測精確度不下降的同時,極大地加速BPR模型訓練的收斂。
本發明是這樣實現的,一種基于用戶偏好的自適應采樣方法,包括步驟:
S1,以特征學習的方法從用戶和商品的屬性特征中學習到用戶和商品的低秩表達U0和V0,作為BPR模型的初始參數;
S2,根據商品的低秩表達在不同特征維度下對商品進行從大到小排序,得到k個特征維度下的商品排序列表L1,L2,...,Lk;
S3,根據商品和用戶的低秩特征表達向量,計算訓練集合中每一用戶購買商品記錄(ui,vp)從屬于各特征維度的概率分布p(d|ui,vp),并以0初始化一與低秩特征維數相等長度的計數器數組counts;
S4,根據概率分布p(d|ui,vp)從低秩特征向量的維度中采樣出一特征維度dz作為相關購買記錄從屬的特征維度;
S5,利用幾何分布在商品集合排序空間中以預設概率p(r)采樣出一排序序號r;
S6,結合特征維度dz和排序序號r在商品排序列表中取得一商品 作為一個可與用戶已經購買的商品Vp進行比較且當前用戶未曾購買的商品vq,組成一個三元組(ui,vp,vq),并讓計數器加1;然后重復S4~S6,構建一個三元組集合Ds;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津中科智能識別產業技術研究院有限公司,未經天津中科智能識別產業技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610041393.X/2.html,轉載請聲明來源鉆瓜專利網。





