[發明專利]一種基于單字索引系統的檢索方法和裝置有效
| 申請號: | 201110147520.1 | 申請日: | 2011-06-02 |
| 公開(公告)號: | CN102810096A | 公開(公告)日: | 2012-12-05 |
| 發明(設計)人: | 楊棟 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 單字 索引 系統 檢索 方法 裝置 | ||
1.一種基于單字索引系統的檢索方法,其特征在于,該方法包括:
接收檢索語句;
提取所述檢索語句的字符序列,并將該字符序列進行拆分得到檢索單元,所述檢索單元包括至少一個檢索字符;
根據所述檢索單元的檢索字符查詢索引表,獲得各檢索字符對應的索引文檔集;以所述索引文檔集為處理對象,進行包括選擇操作在內的處理,并將處理結果作為該檢索單元的檢索結果;
對所述各檢索單元的檢索結果進行交集運算并返回結果文檔集;
用所述各檢索單元掃描所述結果文檔集以判斷所述結果文檔集的文檔是否包含所述各檢索單元,如果是,則返回該文檔。
2.根據權利要求1所述的方法,其特征在于,所述以索引文檔集為處理對象,進行包括選擇操作在內的處理的步驟包括:比較所述檢索單元的各索引文檔集的索引文檔數,選擇索引文檔數最少的索引文檔集作為該檢索單元的處理結果。
3.根據權利要求1所述的方法,其特征在于,所述以索引文檔集為處理對象,進行包括選擇操作在內的處理的步驟包括:
將所述檢索單元的索引文檔集劃分為至少兩個組;
分別將每組的索引文檔集進行交集運算,得到各組的運算結果文檔集;
比較所述各組的運算結果文檔集內的索引文檔數,選擇索引文檔數最少的文檔集作為所述檢索單元的處理結果。
4.根據權利要求1所述的方法,其特征在于,所述以索引文檔集為處理對象,進行包括選擇操作在內的處理的步驟包括:
將所述檢索單元的索引文檔集劃分為至少兩個組;
比較每組內各索引文檔集的索引文檔數,分別選擇索引文檔數最少的索引文檔集作為該組的選擇結果文檔集;
對所述各組的選擇結果文檔集進行交集運算,將交集運算得到的文檔集作為所述檢索單元的處理結果。
5.根據權利要求1所述的方法,其特征在于,所述檢索字符包括單字、詞組、成語或短句。
6.根據權利要求1至5中任何一項所述的方法,其特征在于,在拆分檢索語句的字符序列得到檢索單元之后進一步包括按照第一預設規則對拆分的檢索單元進行歸并處理。
7.根據權利要求6所述的方法,其特征在于,所述對拆分的檢索單元進行歸并處理的步驟包括:
讀取第一檢索單元和第二檢索單元,根據第一檢索單元查詢用戶檢索歷史表,所述檢索歷史表登記有第一檢索單元與第二檢索單元在同次檢索中捆綁檢索的頻度;
判斷所述頻度是否超過預設閥值,如果是,則將第一檢索單元與第二檢索單元歸并為一個檢索單元。
8.根據權利要求6所述的方法,其特征在于,所述對拆分的檢索單元進行歸并處理的步驟包括:
讀取第一檢索單元和第二檢索單元;
查詢預設檢索單元關系表,判斷是否登記第一檢索單元對第二檢索單元的唯一限定關系,如果是,則將第一檢索單元和第二檢索單元歸并為第二檢索單元;所述預設檢索單元關系表登記有一檢索單元對另一檢索單元的唯一限定關系。
9.根據權利要求1至5中任何一項所述的方法,其特征在于,在所述包含各檢索單元的文檔返回后進一步包括:
根據所述各檢索單元在返回文檔中出現的頻率計算各檢索單元的權重;根據上述權重計算所述返回文檔的相關性分值;根據上述分值對返回文檔進行排序。
10.一種基于單字索引系統的檢索裝置,其特征在于,該裝置包括:
檢索語句接收模塊、字符序列提取與拆分模塊、索引文檔集獲取模塊、索引文檔集處理模塊、交集運算模塊和判斷模塊,其中:
所述檢索語句接收模塊,用于接收檢索語句;
所述字符序列提取與拆分模塊,用于提取所述檢索語句的字符序列,并將該字符序列進行拆分得到檢索單元,所述檢索單元包括至少一個檢索字符;
所述索引文檔集獲取模塊,用于根據所述檢索單元的檢索字符查詢索引表獲得各檢索字符對應的索引文檔集;
所述索引文檔集處理模塊,用于以所述索引文檔集為處理對象,進行包括選擇操作在內的處理,并將處理結果作為所述檢索單元的檢索結果;
所述交集運算模塊,用于對所述各檢索單元的檢索結果進行交集運算并返回結果文檔集;
所述判斷模塊,用所述各檢索單元掃描所述結果文檔集以判斷所述結果文檔集的文檔是否包含所述各檢索單元,如果是,則返回該文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110147520.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據安全操作方法及通信終端
- 下一篇:一種多功能手表





