[發明專利]一種基于UCL的用戶興趣主題挖掘方法及裝置有效
| 申請號: | 202010516041.1 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111651675B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 楊鵬;李超;季冬 | 申請(專利權)人: | 楊鵬 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ucl 用戶 興趣 主題 挖掘 方法 裝置 | ||
1.一種基于UCL的用戶興趣主題挖掘方法,其特征在于,包括如下步驟:
(1)對待挖掘主題的網頁文檔進行數據清洗、實體識別和UCL標引,計算UCL中每個內容實體在UCL所表示文檔中的語義重要程度,利用語義重要程度計算實體對于表現文檔主題的貢獻程度,從而將文檔轉換為向量表示;
(2)將用戶搜索歷史、瀏覽器瀏覽歷史和瀏覽器書簽轉換為對應的文檔向量,將其作為輸入進行初始主題挖掘,對主題挖掘超參數進行初始化;然后將用戶實時訪問互聯網中的內容產生的流式網絡文檔按時間分片,計算主題挖掘超參數轉移矩陣,從而依次得到每個時間片的用戶潛在興趣主題模型;
(3)將當前搜索對應的歷史查詢信息融入搜索句中進行主題挖掘,得到用戶搜索意圖主題,包括:對用戶搜索句進行分詞和實體識別,得到搜索實體集合并獲取與用戶搜索語句相關聯的歷史文檔;利用用戶搜索實體在搜索句中的語義重要程度對歷史文檔進行過濾,從而得到搜索意圖主題文檔集合;對用戶意圖主題文檔集合進行主題挖掘得到用戶搜索意圖主題;
計算搜索意圖主題與用戶潛在興趣主題的相似度,選擇相似度排序的前ε個興趣主題作為用戶興趣主題,ε為設定的參數。
2.根據權利要求1所述的一種基于UCL的用戶興趣主題挖掘方法,其特征在于,所述步驟(1)中根據如下公式計算實體對于表現文檔主題的貢獻程度:
其中WCWe,doc表示實體e對于表現文檔doc主題的貢獻程度,pwe,doc表示實體e對于UCL文檔doc的語義重要程度,NDOC表示文檔總數,I(pwe,i≥pwe,doc)為指示函數,表示統計pwe,i≥pwe,doc的文檔個數。
3.根據權利要求2所述的一種基于UCL的用戶興趣主題挖掘方法,其特征在于,根據如下公式計算實體對于UCL文檔的語義重要程度:
其中freq(ce)為實體e的詞頻,n為UCL文檔中實體總數,sj代表中心句,中心句總數為Z,I(ce∈sj)為指示函數,表示ce是否屬于sj,α表示調節參數,取值范圍為0~1。
4.根據權利要求1所述的一種基于UCL的用戶興趣主題挖掘方法,其特征在于,所述步驟(2)中根據如下兩個公式分別對主題挖掘超參數α和β進行初始化:
αt+μ=ωα·αt
βt+μ=ωβ·βt
其中超參數α和β分別為LDA主題模型中求解文檔在主題上概率分布的參數和主題在詞語上概率分布的參數,上標t表示t時刻,μ表示時間片的大小,轉換矩陣ωα和ωβ如下:
其中ωα為K乘K的稀疏矩陣,simm,k表示時間片(t,t+μ)內出現的第m篇文檔與上一時間片內的屬于第k個主題的文檔的語義相似度最大值;ωβ為N乘N的稀疏矩陣,WCWn,m表示第n個詞語表現時間片(t,t+μ)中第m篇文檔主題的貢獻程度,N和K分別表示詞語總數和主題總數,M為時間片(t,t+μ)內出現的文檔總數。
5.根據權利要求1所述的一種基于UCL的用戶興趣主題挖掘方法,其特征在于,初始時刻超參數α和β確定方法為:對于初始時定義的所有K個主題,統計每個主題包含UCL文檔的個數,將先驗計數作為α的初始值;統計每個詞出現在每個主題所代表的UCL文檔中的個數,將先驗計數作為β的初始值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于楊鵬,未經楊鵬許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010516041.1/1.html,轉載請聲明來源鉆瓜專利網。





