[發明專利]基于偽本體的用戶畫像-項目推薦系統及方法有效
| 申請號: | 201810563501.9 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN108920521B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 張濤;鄧悅;翁康年;張濱 | 申請(專利權)人: | 上海財經大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/906 |
| 代理公司: | 上海盈盛知識產權代理事務所(普通合伙) 31294 | 代理人: | 孫佳胤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 本體 用戶 畫像 項目 推薦 系統 方法 | ||
1.基于偽本體的用戶畫像-項目推薦系統,其特征在于,包括:偽本體模塊、用戶畫像模塊、項目畫像模塊、基于偏好度的推薦模塊;所述偽本體模塊獲取領域相關文本,生成領域偽本體,并輸出到用戶畫像模塊和項目畫像模塊;所述用戶畫像模塊獲取用戶的網絡瀏覽行為,根據所述領域偽本體,計算優化的用戶特征向量,并輸出到基于偏好度的推薦模塊;所述項目畫像模塊獲取項目相關描述文本,根據所述領域偽本體,計算優化的項目特征向量,并輸出到基于偏好度的推薦模塊;所述基于偏好度的推薦模塊根據所述用戶特征向量和項目特征向量輸出用戶對應的項目偏好度排名;所述偽本體模塊包含領域概念識別子模塊和概念關系識別子模塊,所述領域概念識別子模塊對領域相關文本進行詞頻統計,去除停用詞后,將詞頻大于α的詞記為領域概念詞,α為預定值;所述概念關系識別子模塊的流程為:其中,ch為領域概念詞集合C中的第h個概念詞,為ch的n維詞向量表示,表示領域概念詞ch通過層次聚類被劃分為偽本體的第y層第m個類;
所述領域概念識別子模塊判斷領域概念詞是否領域專屬,若不是領域專屬,則將其定義為虛概念,若是領域專屬,則定義其為實概念;所述用戶畫像模塊包括初始用戶畫像生成子模塊和用戶畫像優化子模塊,所述初始用戶畫像生成子模塊將用戶瀏覽的所有網頁詞匯進行基于詞向量的表示:其中tijk表示第i個用戶瀏覽的第j個網頁中的第k個詞,為tijk的n維詞向量表示;將網頁詞匯與概念詞進行相似度量:其中表示第i個用戶瀏覽的第j個網頁中的第k個詞與偽本體中第h個概念間基于詞向量的相似度,表示tijk的詞向量中第g個維度值,表示ch的詞向量中第g個維度值;以每一個概念詞為單位,將大于閾值的相似度累加:其中q為閾值,|tij|表示第i個用戶瀏覽的第j個網頁中包含的詞匯個數,dij表示第i個用戶瀏覽的第j個網頁,表示第i個用戶瀏覽的第j個網頁對第h個概念的偏好度,對每個概念,將按用戶進行累加,計算出每個用戶對概念的偏好值其中,|di|表示第i個用戶瀏覽的網頁數量,di表示第i個用戶,表示第i個用戶對第h個概念的偏好值,用N表示用戶的某偏好概念在一段時間不同網頁中識別出的次數,當該偏好概念出現次數小于N時,該偏好概念無效:其中,為ch被識別出的次數,最終,第i個用戶對所有概念的偏好值構成用戶特征向量;所述用戶畫像優化子模塊將無值父實概念的值更新為父概念與每個子概念之間的距離與子概念值的乘積的累加:其中,表示第i個用戶在最終畫像上對于概念ch的偏好值,表示第i個用戶在初始畫像上對于概念ch的偏好值,c′h表示偽本體中概念ch的所有子概念的集合,|c′h|表示偽本體中概念ch的所有子概念的數量,表示第i個用戶對ch的第v個子概念的偏好度,表示概念ch與其第v個子概念基于詞向量的相似度,計算方法為:其中,表示的詞向量中第g個維度值;最終,第i個用戶對所有概念的偏好值構成優化的用戶特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海財經大學,未經上海財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810563501.9/1.html,轉載請聲明來源鉆瓜專利網。





