[發明專利]資源搜索方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010721879.4 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN112749333A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 黃劍輝;梁龍軍;劉海波 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9538;G06K9/62;G06N3/04 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 董慧;聶榕 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 資源 搜索 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及機器學習技術領域,特別是涉及一種資源搜索方法、裝置、計算機設備和存儲介質。該方法包括:響應資源搜索請求,獲取搜索關鍵字;從索引庫召回與所述搜索關鍵字相關的候選資源;獲取未曝光過的候選資源的視覺吸引度特征以及曝光過的候選資源的點擊率;根據所述視覺吸引度特征預測所述未曝光過的候選資源的預測點擊率;根據所述預測點擊率對所述候選資源進行排序,得到搜索結果。該方法從候選資源的視覺吸引度特征維度預測點擊率,而不同候選資源的吸引度特征不同,能夠根據各候選資源的吸引度預測候選資源的點擊率,體現預測的各候選資源的點擊率差異,使得未被曝光過的優質資源能夠參與搜索排序,提高了資源搜索的效率。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種資源搜索方法、裝置、計算機設備和存儲介質。
背景技術
隨著互聯網技術的發展,用戶搜索目標時,針對用戶給定的搜索詞,為提高搜索質量,搜索系統通常會對匹配的目標進行排序,使最有可能符合用戶需要的目標排在前面。在排序時,歷史曝光、點擊等統計信息都是很重要的特征,發揮著關鍵作用,往往近期被多次曝光點擊的目標在排序中更容易被優先再次曝光。但是歷史曝光、點擊等特征在排序中的引入也造成了問題,如歷史中未曝光的目標缺乏甚至沒有曝光機會,使得系統中大量的優質文檔脫離不了冷啟動階段。
針對歷史中未曝光或者未獲得足夠曝光機會的資源,通常基于參數估計采用統計平滑技術來預估文檔的曝光點擊率(CTR)。假設r表示內容文檔的點擊率,click為文檔現有的點擊量,exp為文檔現有的歷史曝光量,α、β分別預估參數,則預估點擊率的公式如下:
上式基于歷史曝光點擊統計數據采用貝葉斯估計、矩估計等方式取得兩個預估參數值,從而獲得當前資源的曝光點擊率預估值。
然而采用該方法,所有未曾曝光的文檔均采用一套估計參數,使得對資源的點擊率的預估值無法差異化,影響排序結果,用戶根據排序結果不能快速查到目標資源,導致搜索效率低。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高搜索效率的資源搜索方法、裝置、計算機設備和存儲介質。
一種資源搜索方法,其特征在于,所述方法包括:
響應資源搜索請求,獲取搜索關鍵字;
從索引庫召回與所述搜索關鍵字相關的候選資源;
獲取未曝光過的候選資源的視覺吸引度特征以及曝光過的候選資源的點擊率;
根據所述視覺吸引度特征預測所述未曝光過的候選資源的預測點擊率;
根據所述預測點擊率對所述候選資源進行排序,得到搜索結果。
一種資源搜索裝置,所述裝置包括:
響應模塊,用于響應資源搜索請求,獲取搜索關鍵字;
搜索模塊,用于從索引庫召回與所述搜索關鍵字相關的候選資源;
點擊率處理模塊,用于獲取未曝光過的候選資源的視覺吸引度特征以及曝光過的候選資源的點擊率;
預測模塊,用于根據所述視覺吸引度特征預測所述未曝光過的候選資源的預測點擊率;
搜索處理模塊,用于根據所述預測點擊率對所述候選資源進行排序,得到搜索結果。
在其中一個實施例中,所述點擊率處理模塊,用于獲取資源搜索結果展示時未曝光過的所述候選資源的視覺可見內容,得到未曝光過的候選資源的視覺吸引度特征。
在另一個實施例中,所述點擊率處理模塊,用于獲取資源搜索結果展示時未曝光過的所述候選資源的標題、封面圖片和標簽中的至少一種,得到未曝光過的候選資源的視覺吸引度特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010721879.4/2.html,轉載請聲明來源鉆瓜專利網。





