[發明專利]一種基于異構信息網絡的電影推薦方法有效
| 申請號: | 201611248620.2 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106709037B | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 余嘯;劉進;殷曉飛;崔曉暉;楊威;井溢洋 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06F16/2458 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電影類型 異構網絡 電影 分析目標 計算目標 目標用戶 特征建模 異構信息 社團 建模 結點 鏈接 綜合計算 求和 構建 加權 運算 網絡 篩選 概率 | ||
1.一種基于異構信息網絡的電影推薦方法,其特征在于,包括以下步驟:
步驟1,鏈接建模,以用戶、電影、電影類型三種類型的對象為結點構建用戶-電影異構網絡,并計算用戶與電影類型之間的權值,具體是:
定義用戶-電影異構網絡模型G=(V,E,W),其中V=Vu∪Vm∪Vt,Vu表示用戶集合,Vm表示電影集合,Vt表示電影類型集合,E=Euu∪Emm∪Ett∪Eum∪Eut∪Emt,其中,Euu表示用戶與用戶之間的鏈接關系,Emm表示電影與電影之間的鏈接關系,Ett表示電影類型與電影類型之間的鏈接關系,Eum表示用戶與電影之間的鏈接關系,Eut用戶與電影類型之間的鏈接關系,Emt表示電影與電影類型之間的鏈接關系;其中W表示六種鏈接關系的權重集合,僅考慮用戶之間的鏈接關系、電影類型之間的鏈接關系以及用戶與電影類型之間的鏈接關系這三種鏈接關系;
步驟2,以電影類型結點為中心,對異構網絡進行社團劃分,一種電影類型為一個社團,查找不同社團兩兩之間的共同結點,并計算電影類型之間的權值;包括:
步驟2.1,利用元路徑搜索將異構網絡中不同類型的結點以電影類型為中心進行劃分,具有相似特征的結點被劃分到一個社團當中,劃分的結果是社團內結點具有高內聚,社團間結點具有低耦合的特征;劃分社團的個數就是電影類型的個數,每一個社團包含該電影類型以及對該電影類型相關的電影進行過評分的用戶即喜愛該電影類型相關電影的用戶群,一個社團可以包含多個用戶,一個用戶也可能存在多個社團中,實際實施時用戶結點與相鄰的電影類型結點的權值可以使用數組a[|Mtype|][|Mtypei|]來存儲,|Mtype|表示電影類型種數,|Mtypei|表示屬于第i種類型電影中的用戶數量,a[i][j]表示第i種電影類型與該類型電影中第j個用戶之間的權值,
步驟2.2,基于計算電影類型之間的權值,其中Mi∩Mj表示這兩種電影類型共同的電影集合,mk代表電影集合中的電影,而相應的gk,i代表用戶i對于電影mk的評分;Mi∩Mj表示這兩種類型電影的并集;
步驟3,計算目標用戶與每個社團即每個電影類型結點之間的相關程度,設置閥值,篩選出符合要求的社團;目標用戶與每個社團之間的初始相關程度的計算與Dijkstra算法相似,唯一不同的在于,對于源點到其他結點的所有路徑,Dijkstra算法得到的是最短距離,而在此計算的是所有路徑長度的和;其中結點之間權值的計算分為兩種,一種是用戶結點與電影類型結點的權值,一種是電影類型結點之間的權值;
步驟4,對于每一個符合要求的社團,基于目標用戶到電影類型結點的初始相關程度,計算目標用戶與社團中的每個用戶之間的影響力,其中,用戶之間的影響力就是用戶之間的相似性,其計算步驟為,確定與目標用戶存在元路徑的用戶,計算元路徑每一段路徑的權值,根據元路徑復合規則計算兩用戶之間的相似性;具體包括:
步驟4.1、兩個電影用戶之間的相互影響力計算依據用戶間的元路徑,用戶之間的相互影響包括直接影響和間接影響;
所述間接影響為用戶之間存在一條路徑,用戶影響力依靠路徑影響彼此相鄰結點;
所述直接影響為結點之間有鏈接關系,即彼此為相鄰結點,那么彼此之間存在直接影響力;
兩個結點之間的存在多條間接影響路徑;對于兩結點之間存在直接聯系又有間接聯系,他們的相互影響是兩種影響的疊加;這種影響力大小定義為公式計算,當i,j為不相鄰結點時當i,j相鄰時,sim(i,j)=wi,j,其中n表示結點i,j之間的路徑數目,m表示路徑序號,Nb(i,j)表示結點i,j每一條路徑的連接點結點集合,符號⊕表示影響力在路徑中不同階段的連接方式,因為結點間隨著路徑長度加長,影響會逐漸變弱,即路徑越長影響力越小,當結點i,j是相鄰結點時,使用步驟1中的鏈接關系的權值,當不是相鄰結點時并且元路徑較長時,就將元路徑以某一結點分為兩段,這樣反復下去直到元路徑只有兩個相鄰結點;
步驟4.2、元路徑將用戶之間的鏈接關系、電影類型之間的鏈接關系以及用戶與電影類型之間的鏈接關系這三種類型的鏈接進行構建;在用戶-電影異構網絡中,對于用戶與用戶之間的間接關系,起到連接作用的是電影類型結點,當用戶都喜愛某一種類型的電影,可以認為彼此之間能夠產生影響;用戶之間的影響力計算公式使用Sim(u0,uij)=l(Mtypei)*a[Mtypei][j]來計算,其中,Mtypei表示第i種電影類型,l(Mtypei)表示目標用戶u0到第i種電影類型的初始相關程度,a[Mtypei][j]表示該電影類型結點到該電影類型所代表的社團中的第j個用戶uij的權值;
步驟5,計算目標用戶與符合要求的社團所代表的電影類型的喜愛程度,用目標用戶與社團中每一個用戶之間的影響力的均值來表示,社團中各結點對目標用戶影響力的平均值作為用戶劃分到該社團的概率,即目標用戶對于該社團所代表的電影類型的喜愛程度,平均值越大,目標用戶劃分到該社團概率越大,喜愛對應類型電影可能性越高;令目標用戶劃分到社團ck的概率為P2(ck|u0),其計算過程如公式其中,uk屬于社團ck中的用戶結點,|ck|表示其中結點的個數,sim(u0,uk)表示目標用戶u0和uk之間的相互影響力;
步驟6,特征建模,基于經典樸素貝葉斯分類進行用戶單個特征屬性分類,分析目標用戶的每一個特征被劃分到每種電影類型的概率;具體包括:
步驟6.1,定義用戶各個特征屬性之間相互獨立,對用戶單個特征屬性進行建模分類,目的在于分析用戶單個特征屬于每個電影類型的概率;在用戶-電影異構網絡中,對特征屬性進行建模時,用Xv表示對象V的特征屬性,相應地,針對文中的研究對象用戶ui來說,Xui代表其特征屬性集合;考慮電影用戶有多個特征屬性,因此Xui是一個向量,表示為Xui={Xui,1,Xui,2,...,Xui,j,Xui,n},其中n=|Xui|為屬性個數;
步驟6.2,目標用戶單個特征屬性屬于某個電影類型的概率用P(ck|Xui,j)表示,P(Xui,j|ck)表示在電影類型ck中用戶ui的第j個屬性Xui,j所占的比率,Xui,j|ck服從高斯分布,即P(ck)表示屬于電影類型ck的電影占所有電影的比例,從數據中可以直接統計獲取,P(Xui,j)表示屬性Xui,j的概率,定義所有屬性概率相同,即P(Xui,j)=P(Xuj,i),i≠j;由貝葉斯定理得兩者之間關系如公式P(ck|Xui,j)=P(Xui,j|ck)×P(ck)/P(Xui,j)對于單個特征屬性Xui,j建模完成以后,同樣的,用戶其他特征屬性也相應的得到建模,從而每個用戶的每個屬性都得到了建模;依據貝葉斯定理可以得出每個用戶的每個屬性屬于某個電影類型的概率;
步驟7,基于目標用戶的每一個特征被劃分的概率,綜合計算目標用戶對每個電影類型的喜愛程度;具體包括:復合特征屬性建模,綜合考慮所有用戶特征屬性,從用戶自身角度分析用戶屬于某個電影類型的概率,喜愛某種類型電影的可能性;是將每個用戶的每個屬性分類結果綜合起來考慮,利用對用戶屬性的分類進而完成對用戶的分類,其主要思想是如果用戶所有屬性同時劃分到某一類型的概率比較大,那么目標用戶劃分到該類型的可能性就比較大,即認為目標用戶喜愛對應類型的電影可能性就比較高;用P(ck|u0)表示u0劃分到電影類型ck的概率;由用戶各個特征屬性之間相互獨立,得到公式Xu0,j|ck服從高斯分布,即結合步驟6中目標用戶的每一個特征被劃分到每種電影類型的概率公式可以得到用戶屬于每一個電影類型的概率公式
步驟8,結合步驟5與步驟7中分別得出的用戶對每一種電影類型的喜愛程度,進行加權求和,分析目標用戶對每一種電影類型的喜愛程度;
步驟9,按照目標用戶對每一種電影類型的喜愛程度,選擇電影類型,推薦評分高的電影,具體是,選擇用戶喜愛程度最高的前k種電影類型,分別從這些電影類型中選擇評分高于一定值的前m部電影推薦給目標用戶。
2.根據權利要求1所述的一種基于異構信息網絡的電影推薦方法,其特征在于,所述步驟6和步驟7中,使用樸素貝葉斯分類,根據用戶特征建立了特征模型,計算出目標用戶u0喜愛電影類型ck的概率子模型P1(ck|u0),步驟1到步驟5中,通過利用元路徑和社團劃分,對用戶-電影異構網絡進行了分析,建立了基于鏈接的模型,得到目標用戶u0喜愛電影類型ck的概率子模型P2(ck|u0);這兩種模型的加權決定了目標用戶u0對于電影類型ck的喜愛程度;定義兩種子模型的權重分別為α和β,得到統一概率模型P(ck|u0)=α*P1(ck|u0)+β*P2(ck|u0),其中P1(ck|u0)和P2(ck|u0)分別表示所述步驟6、步驟7和步驟1到步驟5中,通過兩種不同方式計算出的目標用戶u0喜愛電影類型ck的概率,α為非負數,表示特征模型所占權重,β為正常數,表示鏈接模型所占權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611248620.2/1.html,轉載請聲明來源鉆瓜專利網。





