[發明專利]一種基于多維分類強化學習的動態推薦系統設計方法有效
| 申請號: | 201811329913.2 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109543840B | 公開(公告)日: | 2023-01-10 |
| 發明(設計)人: | 李祥明;李翔;楊杰;葉能;雒江濤;王夢;周欣 | 申請(專利權)人: | 北京理工大學;重慶郵電大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多維 分類 強化 學習 動態 推薦 系統 設計 方法 | ||
1.一種基于多維分類強化學習的動態推薦系統設計方法,其特征在于:采用馬爾可夫決策過程模型,此模型中的智能體定義為向用戶推薦物品的服務器,依據物品的幾方面量化特征,用戶狀態向量s表示為公式(1):
s=(feature1A,feature1B,feature1C,...,featureKA,featureKB,featureKC) (1)
其中,feature1A……featureKC表示該用戶點擊過的K個物品的特征;
A、B、C表示量化特征的三個不同維度;為了保持各量化特征的權重相同,將K個物品的所有維度特征都歸一化到[0,1]區間;
根據用戶狀態的定義,動作空間定義為使智能體能夠選擇推薦策略的空間,狀態轉移函數也由此確定,給出獎賞函數的度量;
其中,獎賞函數,記為Reward;
在關注用戶與推薦系統交互的基礎上,獎賞R根據用戶對推薦物品的點擊進行定義:
在每次推薦之后,相應的獎賞為用戶點擊被推薦物品的數量,若未發生點擊,則獎賞為0;
獎賞大于0時,稱之為用戶對于先前的推薦做出反饋;
假設任意時刻用戶訪問服務器的概率保持不變,從用戶首次訪問平臺的時刻0起,用戶的活躍度表示為公式(2):
C(t)=C0(t)=λ0e-λt; (2)
其中,用戶活躍度,記為Activeness;C(t)表示舊用戶的活躍度;λ為用戶活躍度衰減系數;λ0表示舊用戶活躍度的增加偏移值;
λ0<1,λ<1分別為設定參數,λ0>μ0,其中,μ0為開始推薦閾值;之后用戶每次向服務器請求推薦或對過去的推薦做出反應都會造成活躍度更新為C(t)=C(t)+λ0,但是最大值不超過1,對于超過的部分做向下平移的操作;
所述的基于多維分類強化學習的動態推薦系統設計方法,包括如下步驟:
步驟1:服務器根據所推薦物品的固有特征對所有物品進行分類,并對所有物品執行熱度統計,更新基于熱度的代表物品,具體包括如下子步驟:
步驟1.1基于物品分類和特征映射,把物品i用唯一對應的特征向量ei表示,如公式(3)所示:
ei=(featureiA,featureiB,featureiC) (3)
步驟1.2對于特征的各個維度,以固定的步長δ=(δA,δB,δC)分類,此操作是將高維特征空間網格化,每個物品屬于一個類型網格;
步驟1.3綜合當前用戶狀態,對各個物品最近點擊次數進行統計并以此作為該物品的熱度度量;
步驟1.4對于每個類別以熱度最高選出熱度的代表物品;
經過時間T0,重復步驟1.1到步驟1.4,使新物品映射到特征空間上;同時更新基于熱度的代表物品,以避免因物品新舊造成的用戶偏好估計誤差;
步驟2:用戶向服務器發送請求,請求服務器推薦物品;
步驟3,計算用戶活躍度與網絡權重并存儲;
其中,用戶包括新用戶和舊用戶;
步驟3具體包括如下子步驟:
步驟3.1計算并存儲新用戶和舊用戶的用戶活躍度;
舊用戶的活躍度通過公式(4)計算并存儲:
C(t)=C(t)+λ0 (4)
新用戶的活躍度通過公式(2)計算并存儲:
步驟3.2分別計算并存儲新用戶和舊用戶的Actor神經網絡及Critic神經網絡的權重;
其中,Actor神經網絡的權重,記為θ;Critic神經網絡的權重,記為φ;
其中,Actor神經網絡的輸入st,輸出為一組權重at,如公式(5):
at=(WtA,WtB,WtC) (5)
其中,WtA,WtB,WtC分別是t時刻對應A、B、C三個維度特征的系數;
步驟3.2具體為:
步驟3.2.1對于舊用戶,Actor神經網絡及Critic神經網絡的權重已經存在,根據當前用戶給出的反饋采用策略梯度的方式更新權重向量;
步驟3.2.2對于新用戶,Actor神經網絡及Critic神經網絡尚未建立,則依據用戶注冊登記的靜態信息,選取相似用戶近期點擊的物品,請新用戶在其中選取K個以作為初始狀態向量,并以此對Actor神經網絡進行首次訓練,推薦結果的反饋用于Critic神經網絡的首次訓練;
其中,Critic神經網絡依據用戶狀態和動作估計獎賞給Actor神經網絡所產生的推薦評分,具體為:Critic神經網絡的輸入為(st,at),輸出Q(st,at)給Actor神經網絡所產生的推薦評分;
每次用戶與服務器交互之后,根據返回的獎賞更新Q(st,at)網絡的權重,再由此Critic神經網絡對下一次交互之后的Actor神經網絡給出的動作進行反饋;
步驟4服務器根據用戶活躍度判斷是否跳至步驟5進行推薦物品,具體為:
步驟4.1若用戶活躍度大于已設定閾值μ0,則進入步驟5進行物品推薦,經過t0后,重復步驟4;
步驟4.2若用戶活躍度小于已設定閾值μ0,則無動作,等待用戶請求或對先前的推薦進行反饋;
步驟5服務器依據Actor神經網絡和現有的用戶狀態向量,對用戶進行物品推薦,具體為:
步驟5.1根據當前用戶的狀態向量st經過Actor神經網絡計算并輸出一組權重,如公式(5)所示:
步驟5.2采用at與物品特征向量ei內積的方式用公式(6)計算用戶對于特定物品的評分scorei:
其中,表示at的轉置;
步驟5.3選出評分最高的M個物品進行推薦;
步驟6用戶對服務器推薦物品進行反饋,若用戶發生反饋,則對用戶狀態st進行更新,回到步驟3;若未發生反饋,則無動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學;重慶郵電大學,未經北京理工大學;重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811329913.2/1.html,轉載請聲明來源鉆瓜專利網。





