[發明專利]一種搜索召回方法和裝置、服務器、存儲介質有效
| 申請號: | 201710697601.6 | 申請日: | 2017-08-15 |
| 公開(公告)號: | CN107491518B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 李辰;姜迪;王昕煜;魏軼彬;王璞;何徑舟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F16/36;G06N3/04 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 召回 方法 裝置 服務器 存儲 介質 | ||
本發明實施例公開了一種搜索召回方法和裝置、服務器、存儲介質。其中,搜索召回方法包括:獲取用戶輸入的檢索詞;利用預先訓練的神經網絡模型計算所述檢索詞的語義向量;根據預先建立的索引,從候選文檔中召回與所述檢索詞的語義向量相關的目標文檔,其中,所述索引是根據所述候選文檔的語義向量建立,所述候選文檔的語義向量是根據所述預先訓練的神經網絡模型計算得到。本發明實施例可以解決現有的召回方法中缺乏對語義的泛化能力,從而影響召回準確性的問題,以提高搜索召回的準確性。
技術領域
本發明實施例涉及互聯網技術,尤其涉及一種搜索召回方法和裝置、服務器、存儲介質。
背景技術
隨著互聯網技術的快速發展,搜索引擎的功能也日趨強大。搜索通常根據目的和性能分為召回和排序兩部分,召回的目的是根據用戶輸入的檢索詞,從大量候選網頁/文檔中篩選一批少量相關的結果;排序的目的是對召回的結果進行優化,使用更精細的特征計算其相關性,并以此為依據作為最后呈現給用戶的順序。
通常,在搜索引擎中使用倒排索引等基于字/詞粒度的匹配方法實現召回,通過字/詞的倒排拉鏈出相關結果,并通過TFIDF(term frequency–inverse documentfrequency,是一種用于信息檢索與數據挖掘的常用加權技術)、BM25(一種常見用來做相關度打分的公式)等指標對結果進行評價。但是,由于TFIDF、BM25等指標基于字面匹配,缺乏對語義的泛化能力,從而影響召回的準確性。
發明內容
本發明實施例提供一種搜索召回方法和裝置、服務器、存儲介質,以解決現有的召回方法中缺乏對語義的泛化能力,從而影響召回準確性的問題。
第一方面,本發明實施例提供了一種搜索召回方法,該方法包括:
獲取用戶輸入的檢索詞;
利用預先訓練的神經網絡模型計算所述檢索詞的語義向量;
根據預先建立的索引,從候選文檔中召回與所述檢索詞的語義向量相關的目標文檔,其中,所述索引是根據所述候選文檔的語義向量建立,所述候選文檔的語義向量是根據所述預先訓練的神經網絡模型計算得到。
第二方面,本發明實施例還提供了一種搜索召回裝置,該裝置包括:
檢索詞獲取模塊,用于獲取用戶輸入的檢索詞;
語義向量計算模塊,用于利用預先訓練的神經網絡模型計算所述檢索詞的語義向量;
文檔召回模塊,用于根據預先建立的索引,從候選文檔中召回與所述檢索詞的語義向量相關的目標文檔,其中,所述索引是根據候選文檔的語義向量建立,該候選文檔的語義向量是根據所述預先訓練的神經網絡模型計算得到。
第三方面,本發明實施例還提供了一種服務器,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上所述的搜索召回方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如上所述的搜索召回方法。
本發明實施例通過利用預先訓練的神經網絡模型計算檢索詞的語義向量,并根據預先建立的索引,從候選文檔中召回與檢索詞的語義向量相關的目標文檔,從而使召回任務可以使用到大數據訓練的高質量語義特征,解決了現有的召回方法中缺乏對語義的泛化能力,影響召回準確性的問題,實現提高搜索召回準確性的效果。
附圖說明
圖1是本發明實施例一中的搜索召回方法的流程圖;
圖2是本發明實施例二中的搜索召回方法的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710697601.6/2.html,轉載請聲明來源鉆瓜專利網。





