[發明專利]一種基于搜索歷史、瀏覽足跡的搜索推薦方法在審
| 申請號: | 202011074519.6 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112163158A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 馮光璐;歐陽靜;李然;黃莉雅;曾路;舒彧;倪凡 | 申請(專利權)人: | 貴州電網有限責任公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9538;G06F16/335;G06F16/338;G06F16/33;G06F16/35;G06K9/62 |
| 代理公司: | 成都玖和知識產權代理事務所(普通合伙) 51238 | 代理人: | 胡琳梅 |
| 地址: | 550000 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 歷史 瀏覽 足跡 推薦 方法 | ||
本發明公開了一種基于搜索歷史、瀏覽足跡的搜索推薦方法,本發明首先通過文檔相似度算法處理大量文檔,并建立文檔相似度關系,同時記錄用戶的搜索歷史和瀏覽足跡,對搜索歷史進行語義分詞提取關鍵詞并通過關鍵詞匹配文檔與瀏覽足跡相似文檔進行組合去重,最后推薦給用戶,從而解決傳統推薦算法推薦不準、重復的問題。
技術領域
本發明涉及一種基于搜索歷史、瀏覽足跡的搜索推薦方法。
背景技術
現有技術主要由基于內容推薦、協同過濾算法推薦、關聯推薦等,但是這些算法都存在不同的缺點,基于內容推薦算法對于復雜屬性不好處理,協同過濾算法存在稀疏問題和擴展性問題。
發明內容
有鑒于此,本發明的目的是提供一種基于搜索歷史、瀏覽足跡的搜索推薦方法。能夠克服背景技術中現有技術存在的缺陷。
本發明的第一方面的目的是通過以下技術方案實現的:
一種基于搜索歷史、瀏覽足跡的搜索推薦方法,所述方法包括以下步驟:
步驟S1:建立文檔相似度關系,在處理大量文檔的過程中,計算文檔相似度,梳理文檔相似度關系;
步驟S2:根據設定的用戶標簽,再從用戶標簽中提取前N個最活躍的標簽,根據這些標簽到文檔庫中進行全文搜索,對搜索到的文檔進行排序,匹配標簽越多權重越高;
步驟S3:根據用戶的瀏覽足跡,取出最新的M條記錄,根據這M條記錄在數據庫中查找文檔的相似文檔,相似度越高排名越靠前;
步驟S4:從用戶標簽中推薦的文檔和從瀏覽足跡中找到的相似文檔,對這些文檔進行合并,去掉重復記錄,去掉用戶已經瀏覽過的記錄,最終做加權排序再推薦給用戶。
特別地,所述步驟S1中,使用simHash算法計算文檔相似度。
特別地,步驟S1包括的具體步驟如下:
步驟S11:計算文檔的simHash值;
步驟S12:比較文檔的simHash值相似度,如果大于閾值則保存文檔相似記錄,然后進入下一步;如果小于閾值則直接進入下一步;
步驟S13:保存文檔信息,結束。
特別地,所訴步驟S2中,用戶標簽通過用戶的搜索記錄智能提取或直接由用戶手動添加自己的關鍵詞,通過用戶的搜索記錄智能提取是根據用戶的搜索記錄使用nlp分詞、去掉停用詞及標點符號,最后提取出用戶搜索的關鍵詞,以此關鍵詞作為用戶標簽。
特別地,所述N值為20、30、40或50。
特別地,所述M值為20、30、40或50。
本發明的第二方面的目的是提供一種計算機裝置,包括存儲器、處理器及儲存在存儲器上并能夠在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如前所述的方法。
本發明的第三方面的目的是提供一種計算機可讀存儲介質,其上儲存有計算機程序,所述計算機程序被處理器執行時實現如前所述的方法。
本發明的有益效果是:本發明首先通過文檔相似度算法處理大量文檔,并建立文檔相似度關系,同時記錄用戶的搜索歷史和瀏覽足跡,對搜索歷史進行語義分詞提取關鍵詞并通過關鍵詞匹配文檔與瀏覽足跡相似文檔進行組合去重,最后推薦給用戶,從而解決傳統推薦算法推薦不準、重復的問題。
本發明的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書和前述的權利要求書來實現和獲得。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州電網有限責任公司,未經貴州電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011074519.6/2.html,轉載請聲明來源鉆瓜專利網。





