[發明專利]一種基于關聯規則與貝葉斯網絡集成的推薦技術在審
| 申請號: | 201610096873.6 | 申請日: | 2016-02-23 |
| 公開(公告)號: | CN107103000A | 公開(公告)日: | 2017-08-29 |
| 發明(設計)人: | 肖建軍 | 申請(專利權)人: | 廣州啟法信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510665 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關聯 規則 貝葉斯 網絡 集成 推薦 技術 | ||
1.針對商務類網站的智能推薦技術,其特征在于將關聯規則與貝葉斯網絡集成,基于貝葉斯網絡預測當前用戶訪問各網址的條件概率,找出條件概率最大的N個網址推薦給用戶,方法包括以下步驟:首先,對網址進行關聯分析,得到關聯規則,并按提升度排序,然后,依據關聯規則前后件的關系,將關聯規則轉化成初始貝葉斯網絡,再然后對初始貝葉斯網絡進行結構學習,尋找最優貝葉斯網絡結構,學習最優貝葉斯網絡結構的參數,最后使用貝葉斯方法預測當前用戶訪問未知網址的概率,將概率最大的N個網址推薦給用戶。
2.根據權利要求1所述的針對商務類網站的智能推薦技術,其特征在于,所述的將關聯規則與貝葉斯網絡集成,是對原始事務集使用Apriori算法得到具有單個后件屬性狀態的關聯規則,按提升度排序后,將其轉化成貝葉斯網絡結構,貝葉斯網的結構是一個有向無環圖,圖中的每一個節點唯一地對應一個隨機變量,節點的狀態對應于隨機變量的值,圖中的有向邊表示變量(節點)之間的條件(因果)依賴關系,關聯規則的前件和后件間也蘊含著一種依賴關系,轉化的思路就是將關聯規則中的這種依賴關系用貝葉斯網的結構表示出來。
3.根據權利要求1所述的針對商務類網站的智能推薦技術,其特征在于,所述的貝葉斯預測,將所有網址是否被訪問看成一組隨機向量變量,當前用戶的歷史訪問記錄就是一個樣本,結合這個樣本數據和參數先驗,預測某個網址被訪問的概率,變量包含貝葉斯網絡節點和非貝葉斯網絡節點兩部分,假設貝葉斯網絡節點條件獨立,非貝葉斯網絡節點相互獨立,貝葉斯網絡節點和非貝葉斯網絡節點相互獨立。
4.根據權利要求1所述的商務類網站的智能推薦技術,所述的將關聯規則與貝葉斯網絡集成推薦的算法具體步驟如下:
1)數據預處理,在對原始數據的探索分析的基礎 上,發現與分析目標無關或模型需要處理的數據,針對此類數據進行處理,通過數據清洗、數據集成和數據變換,將原始數據處理成模型需要的輸入數據,其中為用戶集,為網址集;
2)關聯規則,首先將數據集D轉化成事務集DT, 考慮到要與貝葉斯網絡對應,本發明只分析具有單個后件屬性狀態的關聯規則前件更新問題,因此Apriori算法只需檢索出事務數據庫中的所有2項頻繁項集,利用頻繁項集構造出滿足用戶最小提升度的規則,并根據提升度將規則按從大到小的順序排列;
3)將關聯規則轉化成貝葉斯網絡,轉化的思路就是將關聯規則中的這種依賴關系用貝葉斯網的結構表示出來,關聯規則的前件網址和后件網址間蘊含著一種依賴關系 ,貝葉斯網絡如果存在從節點指向節點的有向邊,則在指向的方向上,的狀態條件依賴于的狀態,稱是的一個父節點,的父節點集可以表示為,關聯規則的項與貝葉斯網絡的節點是對應的,貝葉斯網絡中的點表示的是一個變量,指用戶是否瀏覽網址這個二值變量,而關聯規則中的項表示的是這個變量的一個狀態,即用戶訪問網址這個事件,這樣依照提升度自上而下就將各節點及其父節點找出來;
4)尋找最優貝葉斯網絡,并估計參數,本發明采用MCMC方法學習貝葉斯網絡的結構,通過Gibbs抽樣算法,將局部的邊增加、刪除和反向的均勻分布作為抽樣過程的建議分布,并利用抽樣過程收斂之后產生的來自目標平穩分布的網絡結構樣本來估計貝葉斯網絡的結構特征,構建最優貝葉斯網絡,參數的學習實在最優貝葉斯網絡結構的基礎上進行的,本發明使用貝葉斯方法估計的參數,節點的條件概率分布都是多項式分布,因此參數的共軛先驗及其后驗分布都是狄利克雷分布,從關聯規則的角度來看,貝葉斯網絡的學習過程實際上是關聯規則的優化過程;
5)貝葉斯預測,目標網址是否被訪問是隨機變量,變量分為貝葉斯網絡節點和非貝葉斯網絡節點,非貝葉斯網絡節點相互獨立,非貝葉斯網絡節點和貝葉斯網絡節點相互獨立,所以若是非貝葉斯節點,預測值是其邊緣概率;貝葉斯網絡節點條件獨立,貝葉斯網絡節點和非貝葉斯網絡節點相互獨立,若是貝葉斯節點,預測值是條件概率的乘積;
6)做出推薦,將個網址的預測值排序,從中選出預測值top-N的網址推薦給當前用戶,然后對模型從精度和時效兩方面進行評價,統計精度方法采用指標平均絕對誤差(MAE),決策支持精度指標采用精確率(precision)和召回率(recall),時效用響應時間來衡量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州啟法信息科技有限公司,未經廣州啟法信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610096873.6/1.html,轉載請聲明來源鉆瓜專利網。





