[發明專利]一種融入本體情境的用戶興趣挖掘方法有效
| 申請號: | 201410269562.6 | 申請日: | 2014-06-17 |
| 公開(公告)號: | CN104008203B | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 陳庭貴;周廣瀾;許翀寰;封毅 | 申請(專利權)人: | 浙江工商大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州斯可睿專利事務所有限公司33241 | 代理人: | 王利強 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融入 本體 情境 用戶 興趣 挖掘 方法 | ||
1.一種融入本體情境的用戶興趣挖掘方法,其特征在于:所述用戶興趣挖掘方法包括以下步驟:
1)建立基于二階隱馬爾可夫模型的用戶興趣特征提取模型:
首先需要收集得到那些能夠反映用戶興趣的數據,過程如下:從客戶端、服務器端、代理服務器端獲得用戶源數據,這些源數據獲取之后,將它們進行預處理并以設定的格式進行保存,供以后用戶興趣的挖掘;
其次,采用二階隱馬爾可夫模型對用戶興趣特征提取,包括訓練部分與提取部分;
訓練部分包括將用戶興趣的特征信息先后順序進行預處理,形成文本文檔,然后對文本經過掃描后,利用分隔符、空格、換行、冒號排版將已標記文本序列轉換為標記的文本分塊序列,最后用二階HMM模型按照公式(1)~(5)計算模型參數,其參數的確定算法如公式所示:
①初始概率分布矢量
其中,Init(i)指已標記的整個訓練樣本中,以狀態Si為開始狀態序列的個數,則指以所有狀態為開始狀態序列的個數總和;
②初始狀態轉移概率
其中,Cij和Cijk分別表示從狀態Si到Sj的轉移次數,以及t-1時刻的狀態Si,t時刻狀態Sj,轉移到t+1時刻狀態為Sk的次數;和分別表示從狀態Si到所有狀態的轉移次數之和,以及t-1時刻的狀態Si,t時刻狀態Sj,轉移到所有狀態的次數之和;
③觀察值釋放概率
其中,Ej(Ok)和Eij(Ok)分別表示狀態Sj時釋放觀察值Ok的次數,以及t-1時刻的狀態Si,t時刻狀態Sj,釋放觀察值Ok的次數;和分別表示狀態Sj時釋放所有觀察值的次數之和,以及t-1時刻的狀態Si,t時刻狀態Sj,釋放所有觀察值的次數之和;
提取部分包括兩個步驟,即:(a)將用戶興趣的特征信息先后順序進行預處理,形成文本文檔,對文本經過掃描后,利用分隔符、空格、換行、冒號排版將已標記文本序列轉換為標記的文本分塊序列;(b)結合訓練部分輸出的二階HMM模型,利用Viterbi算法進行計算,應用已建立好的HMM模型進行用戶興趣特征提取,將處理得到后的狀態輸出觀察值O=O1O2…OT作為模型輸入,從中找出狀態標簽序列中概率最大的,用戶特征提取的內容就是被標記為目標狀態標簽的觀察文本;
2)分析反映用戶興趣的情境信息:通過對用戶的搜索、瀏覽行為與購買記錄信息的分析,推導出一段時間內用戶的真實興趣;
3)融入情境的用戶興趣本體模型構建:先將地域、性別、年齡、婚姻、教育背景和收入幾個影響用戶興趣的關鍵作為背景因素指標,并結合用戶的歷史購買信息以及用戶行為特征進行模糊處理以得到其興趣度值;然后采用本體情境的表示方法,通過多粒度劃分,構建用戶興趣本體模型;
4)基于隱半馬爾可夫模型的用戶興趣漂移檢測方法:
選取兩個觀察值來描述用戶的瀏覽行為:a)用戶訪問網頁的瀏覽路徑序列;b)從一個網頁到達另一個網頁的時間間隔;所有狀態集合表示為S={S1,S2,…,SN},相對應的觀察值集合表示為V={v1,v2,…,vN},時間間隔表示為集合I={1,2,…};對于用戶的某一瀏覽行為,其瀏覽路徑鏈接的個數是一個隨機變量,在給定狀態下輸出的觀察值的個數可將該瀏覽行為表示成集合{1,…,D};把用戶瀏覽路徑序列即二維觀察值序列表示成O={(r1,τ1),…,(rT,τT)},其中:rt∈V表示用戶瀏覽網頁內容的對象;τt∈I表示用戶從一個頁面跳轉到另一個頁面rt與rt-1之間的時間間隔;模型的輸出概率矩陣用B={bi(v,q)}表示,對于給定狀態i∈S,bi(v,q)表示用戶在一個頁面rt=v∈V且與前一個頁面的時間間隔為τt=q∈I的概率,且滿足∑v,qbi(v,q)=1;P是隱半馬爾可夫模型中狀態駐留時間的概率矩陣,P={pi(d)},pi(d)表示在給定狀態i下輸出觀察值個數為d∈{1,…,D}的概率,且滿足∑dpi(d)=1;狀態轉移概率矩陣通過A={aij}進行表示,aij表示從i∈S向j∈S轉移的概率;初始概率向量用π={πi}表示,πi表示初始狀態在i∈S時的概率;
將用戶的一條重要的興趣行為記錄定義為:Uinterest={user,background,history,behavior,timestamp,content},其中,user表示用戶;background表示用戶具體背景因素;history表示用戶的歷史購買記錄;behavior標識具體興趣行為操作結果;timestamp表示用戶行為的執行時間;content表示興趣主題內容;
在用戶訪問事務中,任意兩個行為操作之間存在著訪問轉移概率P(qi→qj),表示如下:
對于每個qj及其相對應的觀察值都存在一個觀察值概率分布即用戶user對qj的所有訪問中,對觀察值的興趣概率,可由ati所包含被訪問節點狀態的集合Qi={q1',…,q'f|q'∈IC}表示,則Qi,j表示ati中在qj之后的所有被訪問節點的集合,表示Qi,j中含有觀察值節點的集合:
將用戶user在qj上觀察值概率分布定義為:
然后在用戶user根據的所有可能訪問序列中尋找一個狀態序列,建立用戶興趣行為的隱半馬爾可夫模型,使其具有最大的訪問概率:
在對用戶興趣漂移進行檢測的過程中,首先需要采集HSMM模型中的觀察序列,并且在模型進行訓練之前對數據進行預處理,確定模型參數后,然后通過調用HSMM算法,得到用戶興趣不變的概率值,其概率值用平均對數或然概率進行計算,當用戶的興趣值處在正常范圍內,則將用戶數據加入到訓練數據集中,以更新隱半馬爾可夫模型的參數;否則,該用戶將被認為是興趣漂移。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工商大學,未經浙江工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410269562.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:變電站設備檢修安全監控系統及方法
- 下一篇:智能蓋章機構控制器





