[發明專利]文本檢索方法、用于文本檢索的倒排表生成方法以及系統在審
| 申請號: | 201710681027.5 | 申請日: | 2017-08-10 |
| 公開(公告)號: | CN109388690A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 王朝陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/338 |
| 代理公司: | 北京清源匯知識產權代理事務所(特殊普通合伙) 11644 | 代理人: | 馮德魁;竇曉慧 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 倒排表 檢索 文本檢索 預處理結果 排序依據 身份標識 記錄 申請 檢索系統 預處理 關聯 查詢參數 查詢請求 分值計算 檢索裝置 接收查詢 文檔標識 查詢 歸并 條目 運算 文本 輸出 | ||
本申請提供一種檢索方法,包括:接收查詢請求;對所述查詢請求提供的查詢文本以及查詢參數進行檢索導向預處理,獲得預處理結果;根據所述檢索導向預處理結果進行倒排表查詢以及歸并運算,獲得預定數量的召回文檔;所述倒排表的每個記錄對其關聯的文檔采用分數化文檔身份標識作為文檔標識,每個記錄根據該記錄關聯的文檔的分數化文檔身份標識作為在相應的關鍵詞條目中的排序依據;對所獲得的所述召回文檔進行優先級分值計算;以所述優先級分值為排序依據輸出召回文檔。本申請同時提供一種檢索裝置,一種檢索系統,以及用于檢索的倒排表生成方法。本申請提供的用于文本檢索的方法,采用了特殊的倒排表,能夠優先檢索出重要程度高的文獻。
技術領域
本申請涉及檢索技術,具體涉及一種文本檢索方法,本申請同時提供一種文本檢索裝置。本申請同時提供一種用于文本檢索的倒排表生成方法,使用該方法生成的倒排表被用于前述文本檢索方法中;本申請同時提供一種用于文本檢索的倒排表生成裝置。本申請同時提供一種文本檢索系統。本申請同時提供一種電子設備,用于運行所述文本檢索方法;本申同時提供另外一種電子設備,用于運行所述用于文本檢索的倒排表生成方法。
背景技術
搜索引擎(Search Engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。
使用搜索引擎進行文本檢索,已經成為人們隨時可能使用的功能。隨著使用搜索引擎的次數日益頻繁,每次獲得所需搜索結果產生的時間損耗累計,構成了很大的社會時間成本。因此,減少使用搜索引擎進行文本檢索的耗時能夠有效提升整個社會的效率。
使用搜索引擎進行文本檢索過程中,時間消耗主要反映在兩個方面,即搜索引擎獲得搜索頁面的時間消耗,以及發出檢索請求的搜索引擎使用者獲得所需信息的時間消耗。
所述搜索引擎獲得搜索頁面的時間消耗,即所述搜索引擎根據檢索請求包含的文本信息以及相關參數,檢索獲得相關檢索結果(即召回文檔),并將其以頁面形式展現出來所耗費的時間。在這個過程中,搜索引擎首先需要在數據庫中檢索,獲得召回文檔;還需要進一步進行文檔排序,以確定召回文檔的優先級順序;文檔排序的步驟在召回文檔多于一個顯示頁面時特別重要。在現有技術中,文檔排序所消耗的時間和實時計算資源占整個搜索過程的主要部分。
所述發出檢索請求的搜索引擎使用者獲得所需信息的時間消耗,是指搜索引擎使用者從搜索引擎最終提供的檢索結果頁面中,獲得自己實際需要的檢索結果的時間消耗。這個過程中的耗時與召回文檔的排序相關。如果排序合理,就會減少搜索引擎使用者最終獲取所需文檔的時間;如果排序不合理,則會造成搜索引擎使用者過多的時間耗費。
例如,在召回文檔需要通過多個展示頁面展示的情況下,搜索引擎將搜索引擎使用者所需要的文檔展示在第一個頁面和第二個頁面,則搜索引擎使用者的最終搜索耗時會有顯著差別;在召回文檔數量很大而需要分為多個頁面展示,如果搜索引擎使用者所需要的檢索結果的頁面恰好位于更后面的位置時,則使用者耗時更長,搜索體驗顯著下降,甚至會由于搜索引擎使用者的耐心不夠,最終放棄獲得檢索結果。
現有技術中,為了更有效提供展示頁面,以便使引擎使用者能夠在展示頁面上更快的獲得所需要的檢索結果,均會設置較高的召回文檔數量上限,并在將召回文檔展示前都會對召回文檔進行優先級排序,以便不遺漏重要的文檔,并將更重要的召回文檔優先提供給搜索引擎的使用者。
但是,上述解決方式存在嚴重缺陷。最主要的缺陷是,當搜索內容比較熱門,召回文檔的數量很大時,進行排序運算所消耗的運算成本和時間成本極高;并且,召回文檔量增加會造成排序運算的運算量的顯著增加,這就使得在召回文檔過多的情況下,展示頁面生成速度明顯降低,影響使用者的使用體驗。
由于存在上述問題,獲得一種能夠以更快速度對召回文檔排序,并且排序結果符合使用者要求的文本檢索方案,成為提高搜索引擎工作效率的關鍵。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710681027.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:詞庫生成方法和裝置
- 下一篇:用于生成對話代理的方法和系統





