[發明專利]一種基于UCL的用戶興趣主題挖掘方法及裝置有效
| 申請號: | 202010516041.1 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111651675B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 楊鵬;李超;季冬 | 申請(專利權)人: | 楊鵬 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ucl 用戶 興趣 主題 挖掘 方法 裝置 | ||
本發明公開了一種基于UCL的用戶興趣主題挖掘方法及裝置。本發明首先獲取用戶歷史、瀏覽器瀏覽歷史和瀏覽器書簽對應的網頁數據,并對網頁數據進行預處理和UCL標引;然后將UCL文檔中的相關文本內容轉換為向量,利用DLDA_SE模型構建用戶潛在興趣主題模型,并利用爬蟲爬取用戶實時訪問互聯網中內容產生的數據對用戶潛在興趣主題模型進行即時更新;最后利用DLDA_SE模型對用戶搜索進行主題挖掘,計算拓展后的搜索意圖主題與各個用戶潛在興趣主題的相似度,確定用戶興趣主題。與現有技術相比,本發明可以避免低區分度高頻詞的權重過高降低主題模型的性能,并且能夠適應于搜索環境,通過對用戶搜索短句進行主題拓展,能準確地確定用戶興趣主題。
技術領域
本發明涉及一種基于UCL的用戶興趣主題挖掘方法及裝置,屬于互聯網技?術領域。
背景技術
隨著互聯網的迅速普及和數字信息的爆炸式增長,人們越來越依賴于從互聯?網獲取信息資源。互聯網信息資源極為豐富,一方面帶來了寶貴的信息財富。另?一方面在這些龐大的數據中又有大量冗余相似的信息,且數以億計的網民所關注?的可能是其中不同的小部分信息。因此,如何從這些雜亂失序的數據中檢索出符?合用戶需求的有效信息具有重要意義。傳統搜索引擎主要以鏈接為中心,它主要通過索引網頁中的內容,匹配用戶搜索請求中的關鍵詞反饋給用戶相關的網頁鏈?接,并利用網頁排序算法對結果進行排序。這種模式給互聯網信息檢索帶來了極?大便利,但它對于用戶意圖的挖掘不夠深入,不能體現不同用戶對于同一搜索請?求所期待結果的差異性。且不同用戶的興趣、行為和習慣有較大差異,相同搜索?語句所期待獲取的結果也是不同的。以用戶為中心的個性化搜索技術通過對用戶?興趣建模,能夠有效識別用戶意圖,為用戶提供個性化搜索服務,是解決上述問題的有效途徑。
用戶興趣主題模型的構建需要挖掘用戶搜索歷史等行為信息,且該模型需要?適應互聯網環境下數據的動態變化。傳統主題挖掘方法一般基于詞袋模型,例如?LDA(LatentDirichlet?Allocation)模型,其為了便于計算將每一篇文檔視為一個?詞頻向量。但是該方法僅僅考慮詞語之間的共現信息但沒有考慮詞與詞之間的順?序和詞語所處的語義環境,且不能夠檢測出現次數較多但與具體主題關系不大的?詞語,降低主題模型的區分度。此外,在互聯網中每時每刻都會出現大量新的新聞網頁等數據。用戶興趣主題模型需要適應數據的動態變化,對新主題進行及時?更新,提高對文檔主題表示的準確性。由國家標準《統一內容標簽格式規范》?(GB/T?35304-2017)所定義的統一內容標簽UCL(UniformContent?Label),是?一種可對內容資源的豐富語義進行標引的內容元數據,其可以為用戶興趣主題構?建模型的構建提供豐富語義支撐,提高模型性能。因此,結合UCL富語義編碼的優勢,提出應用搜索環境下的動態主題模型實現用戶興趣主題的挖掘是本發明的主要研究課題。
發明內容
發明目的:針對現有技術中存在的問題與不足,本發明結合UCL富語義編?碼的優勢,提出一種應用搜索環境下的動態主題模型DLDA_SE(Dynamic?Latent?DirichletAllocation?for?Search?Environment),并基于該模型實現用戶興趣主題挖掘方法及裝置。本發明不僅可以挖掘用戶搜索歷史信息中的主題特征構建用戶潛?在興趣模型,還可以利用UCL提供的豐富語義信息對主題挖掘參數按時間片進?行迭代更新,從而對用戶潛在興趣模型進行動態更新,挖掘用戶興趣主題,確定?用戶搜索意圖。
技術方案:為實現上述發明目的,本發明提供的一種基于UCL的用戶興趣?主題挖掘方法,首先獲取用戶歷史、瀏覽器瀏覽歷史和瀏覽器書簽對應的網頁數?據,并利用數據清洗工具對網頁數據進行預處理和UCL標引;然后將UCL文檔?中的相關文本內容轉換為向量,利用DLDA_SE模型構建用戶潛在興趣模型,并?利用爬蟲爬取用戶實時訪問互聯網中的內容產生的數據,將其標引為UCL,結?合UCL提供的豐富語義信息對用戶潛在興趣模型進行即時更新;最后利用?DLDA_SE模型對用戶搜索句進行主題挖掘,計算拓展后得到的搜索意圖主題與?各個用戶潛在興趣主題的相似度,從而挖掘用戶興趣主題,確定用戶搜索意圖。
具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于楊鵬,未經楊鵬許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010516041.1/2.html,轉載請聲明來源鉆瓜專利網。





