[發(fā)明專利]一種基于概率圖模型的個性化旅游游記推薦方法有效
| 申請?zhí)枺?/td> | 201710165587.5 | 申請日: | 2017-03-20 |
| 公開(公告)號: | CN106934056B | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計)人: | 安孝杰;任江濤 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/284;G06F40/258;G06F40/268;G06F16/14;G06F16/16;G06Q50/14 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 概率 模型 個性化 旅游 游記 推薦 方法 | ||
本發(fā)明提供一種基于概率圖模型的個性化旅游游記推薦方法,該發(fā)明采用伽馬分布,泊松分解算法,對未知的用戶偏好,地點特征進行很好的估算,能夠利用文本信息及地點,是否點評游記等三個信息挖掘出這些隱特征,不用考慮讀者的地理位置,景點的位置等一些無法獲取的信息,能夠提高推薦的準(zhǔn)確率;采用聯(lián)合的概率圖模型,對于推薦系統(tǒng)中常見的“冷啟動”問題,以及對于多圖少字的游記能夠很好的解決。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘推薦算法中文本推薦算法領(lǐng)域,更具體地,涉及一種基于概率圖模型的個性化旅游游記推薦方法。
背景技術(shù)
當(dāng)前隨著社會的發(fā)展,人們生活水平的提高,越來越多的人有時間和金錢出門旅游,甚至走出國門到國外旅游。同時,隨著互聯(lián)網(wǎng)的發(fā)展,與旅游相關(guān)的互聯(lián)網(wǎng)社交平臺也在有著很大的發(fā)展,旅游用戶在這些平臺上用文字記錄自己的旅游經(jīng)歷,用照片記錄旅游的點點滴滴,并且愛好旅行的人們觀看自己喜愛的游記,評論這些游記。在國內(nèi)比較大的游記網(wǎng)站,例如百度和馬蜂窩,據(jù)統(tǒng)計,有1/10的人是有自己寫游記的習(xí)慣,而剩下的用戶并沒有留下自己的游記,我們不知道這些剩下的9/10的人是否在真實的現(xiàn)實生活中去到某地旅游參觀,但這些人都喜歡閱讀他人留下的游記,并且對游記進行評論。
一篇游記包含的內(nèi)容有(1)文字內(nèi)容,介紹自己在旅游過程的具體行程,景點特色,交通,住宿,美食等等;(2)地點,游記作者旅游的具體城市,因為用戶居住地到旅游城市的距離是影響到該城市旅游的重要因素;(3)時間,游記作者去到該城市旅游的通常有具體的時間安排與旅游計劃。我們發(fā)現(xiàn),游記一般寫的很隨意,甚至沒留下文字,只是幾張照片。這就造成了游記質(zhì)量的參差不齊,不能給讀者帶來很好的信息。而且,在旅游平臺上,對喜歡看用戶游記的用戶并沒有在游記內(nèi)容上進行推薦,不能給用戶一個很好的幫助。本論文研究的目的在于,基于游記內(nèi)容及地點,給游記愛好者進行個性化推薦。
在傳統(tǒng)的推薦系統(tǒng)中,通常使用協(xié)同過濾,或者svd矩陣分解的方法來進行,但要克服cold-start(“冷啟動”)等問題。而在文本內(nèi)容處理方面,如文本分類等,常見的方法為概率模型(如樸素貝葉斯,LDA),但這些模型可能遇到數(shù)據(jù)稀疏,數(shù)據(jù)分布不均等情況,并且沒有涉及到旅游地點的相關(guān)信息。在基于地點的算法推薦,通常是采用旅游者居住地到旅游景點的距離作為重要參考信息。此外,一些隱變量模型采用矩陣分解的形式找出地點的隱特征。這些都或多或少忽視一些重要信息,比如用戶的隱特征,地點隱特征,還有豐富的文字信息。所以,我們將結(jié)合已有的信息,采用泊松分解方法,利用伽馬分布找出這些潛在的隱特征。
發(fā)明內(nèi)容
本發(fā)明提供一種較高準(zhǔn)確率的基于概率圖模型的個性化旅游游記推薦方法。
為了達到上述技術(shù)效果,本發(fā)明的技術(shù)方案如下:
一種基于概率圖模型的個性化旅游游記推薦方法,包括以下步驟:
S1:游記主題初始化:對游記文章進行分詞,采用標(biāo)準(zhǔn)的文章主題模型,通過吉布斯采樣,得到每篇游記的主題分布,以及每個詞的主題分布,用計算出的主題分布對游記和詞伽馬分布的相關(guān)參數(shù)進行賦值,此外對用戶偏好,地點隱特征的相關(guān)參數(shù)用隨機數(shù)進賦初值;
S2:對每篇游記中的每個詞,通過詞主題與文章主題的分布,計算詞頻關(guān)系的對數(shù)值,并更新每篇游記及該游記中詞的伽馬分布參數(shù)中的形狀參數(shù);
S3:針對每個用戶評論的每篇游記,根據(jù)用戶偏好分布,游記主題分布與地點隱特征,計算用戶參與游記評論的對數(shù)值,并更新用戶,游記,地點伽馬分布參數(shù)中的形狀參數(shù)
S4:更新所有伽馬分布的尺度參數(shù);
S5:通過訓(xùn)練集訓(xùn)練出來的用戶偏好,地點隱特征,計算未評論該游記的用戶評論該游記的的概率。
進一步地,所述步驟S2的具體過程如下:
S21:計算詞頻關(guān)系的期望值,公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710165587.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





