[發明專利]文本檢索方法、用于文本檢索的倒排表生成方法以及系統在審
| 申請號: | 201710681027.5 | 申請日: | 2017-08-10 |
| 公開(公告)號: | CN109388690A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 王朝陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/338 |
| 代理公司: | 北京清源匯知識產權代理事務所(特殊普通合伙) 11644 | 代理人: | 馮德魁;竇曉慧 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 倒排表 檢索 文本檢索 預處理結果 排序依據 身份標識 記錄 申請 檢索系統 預處理 關聯 查詢參數 查詢請求 分值計算 檢索裝置 接收查詢 文檔標識 查詢 歸并 條目 運算 文本 輸出 | ||
1.一種檢索方法,其特征在于,包括:
接收查詢請求;
對所述查詢請求提供的查詢文本以及查詢參數進行檢索導向預處理,獲得預處理結果;
根據所述檢索導向預處理結果提供的待檢索分詞對象以及各個待檢索分詞對象相互之間的歸并關系,對各個待檢索分詞對象進行倒排表查詢以及歸并運算,獲得預定數量的召回文檔;所述倒排表具有如下特征:其每個記錄對其關聯的文檔采用分數化文檔身份標識作為文檔標識,每個記錄根據該記錄關聯的文檔的分數化文檔身份標識作為在相應的關鍵詞條目中的排序依據;
對所獲得的所述召回文檔進行優先級分值計算,獲得各個召回文檔的優先級分值;
以所述優先級分值為排序依據,輸出所述召回文檔。
2.根據權利要求1所述的檢索方法,其特征在于,所述倒排表查詢以及歸并運算中,以所述倒排表關鍵詞條目下的排序為依據,在滿足要求的文檔中優先選取文檔分值高的文檔作為召回文檔。
3.根據權利要求1所述的檢索方法,其特征在于,所述對所述文本查詢請求提供的查詢文本進行檢索導向預處理的步驟,包括:對查詢文本進行分詞,獲得分詞對象,并從分詞對象中確定待檢索分詞對象,以及,根據查詢文本以及查詢參數,獲得所述待檢索分詞對象的歸并關系;所述待檢索分詞對象是所述分詞對象的子集。
4.根據權利要求3所述的檢索方法,其特征在于,所述對所述文本查詢請求提供的查詢文本進行檢索導向預處理的步驟還包括:在獲得分詞對象后,對各個分詞對象進行權重分析,獲得每個分詞對象的權重;后續步驟中,根據每個分詞對象的權重對該分詞對象進行相應處理。
5.根據權利要求1所述的檢索方法,其特征在于,所述對各個待檢索分詞對象進行倒排表查詢以及歸并運算的步驟中,所述歸并運算,包括如下運算中的至少一種:交集運算、并集運算以及差運算。
6.根據權利要求1所述的檢索方法,其特征在于,所述倒排表的各個關鍵詞條目下的記錄根據每個記錄關聯的文檔的分數化文檔身份標識作為排序依據,具體是采用逆序排列。
7.根據權利要求6所述的檢索方法,其特征在于,所述對各個待檢索分詞對象進行倒排表查詢以及歸并運算的步驟中,所述歸并運算包括交集運算;所述交集運算中確定候選召回文檔的方法是:
在需要進行交集運算的各個待檢索分詞對象各自的倒排表條目中,按照從前向后的順序,檢索符合下述條件的記錄:
該記錄關聯的分數化文檔身份標識在各個需要進行交集運算的待檢索分詞對象的倒排表條目中都有相關聯的記錄存在。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710681027.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:詞庫生成方法和裝置
- 下一篇:用于生成對話代理的方法和系統





