[發(fā)明專利]檢索方法、索引建立方法和裝置及檢索系統(tǒng)有效
| 申請?zhí)枺?/td> | 201010100873.1 | 申請日: | 2010-01-25 |
| 公開(公告)號: | CN101819578A | 公開(公告)日: | 2010-09-01 |
| 發(fā)明(設(shè)計)人: | 袁行遠;謝清祿;余孟春 | 申請(專利權(quán))人: | 青島普加智能信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 266555 山東省青島市經(jīng)*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 檢索 方法 索引 建立 裝置 檢索系統(tǒng) | ||
1.一種檢索方法,其特征在于,包括:
通過至少兩種分詞方法分別對被檢索內(nèi)容進行分詞處理,得到至少兩組分詞詞匯,以所有分詞詞匯中互不相同的分詞詞匯作為關(guān)鍵詞;
通過預(yù)先設(shè)置的關(guān)鍵詞到文檔的關(guān)鍵詞索引,檢索出與各所述關(guān)鍵詞相關(guān)的文檔集;
確定各所述關(guān)鍵詞的置信度,所述關(guān)鍵詞的置信度表示所述關(guān)鍵詞與所述被檢索內(nèi)容的相關(guān)度;并通過文檔到關(guān)鍵詞置信度的關(guān)鍵詞置信度索引,檢索出各所述關(guān)鍵詞在各所述文檔中的置信度;
根據(jù)各所述關(guān)鍵詞與各所述文檔的第一相關(guān)度,對各所述文檔集中的所有文檔進行排序;所述第一相關(guān)度包括:所述關(guān)鍵詞的置信度、所述關(guān)鍵詞在各所述文檔中的置信度,和第二相關(guān)度;所述第二相關(guān)度包括:所述關(guān)鍵詞在各所述文檔中出現(xiàn)的頻率、以及與各所述關(guān)鍵詞相關(guān)的各所述文檔在所有文檔中出現(xiàn)的頻率。
2.根據(jù)權(quán)利要求1所述的檢索方法,其特征在于,所述確定各所述關(guān)鍵詞的置信度包括:
根據(jù)各所述分詞方法的分詞準確度,確定各組分詞詞匯的準確度權(quán)值;
根據(jù)所述各組分詞詞匯的準確度權(quán)值,確定各所述關(guān)鍵詞的置信度。
3.根據(jù)權(quán)利要求2所述的檢索方法,其特征在于,所述根據(jù)各所述分詞方法的分詞準確度,確定各組分詞詞匯的準確度權(quán)值,包括:
將各組分詞詞匯對應(yīng)的分詞方法的準確度,與各所述分詞方法的準確度之和的比值,作為各組分詞詞匯的準確度權(quán)值。
4.一種索引建立方法,其特征在于,包括:
通過至少兩種分詞方法分別對被選擇文檔進行分詞處理,得到至少兩組分詞詞匯,以所有分詞詞匯中互不相同的分詞詞匯作為關(guān)鍵詞;
采用倒排索引方法建立各所述關(guān)鍵詞到所述被選擇文檔的關(guān)鍵詞索引;?
確定各所述關(guān)鍵詞在各所述被選擇文檔中的置信度;所述關(guān)鍵詞在所述被選擇文檔中的置信度,表示所述關(guān)鍵詞與所述被選擇文檔的相關(guān)度;
建立所述被選擇文檔到各所述關(guān)鍵詞在所述被選擇文檔中的置信度的關(guān)鍵詞置信度索引。
5.根據(jù)權(quán)利要求4所述的索引建立方法,其特征在于,所述確定各所述關(guān)鍵詞在所述被選擇文檔中的置信度,包括:
根據(jù)各所述分詞方法的分詞準確度,確定各組分詞詞匯的準確度權(quán)值;
根據(jù)所述各組分詞詞匯的準確度權(quán)值,確定各所述關(guān)鍵詞的置信度。
6.一種檢索裝置,其特征在于,包括:
檢索關(guān)鍵詞確定模塊,用于通過至少兩種分詞方法分別對被檢索內(nèi)容進行分詞處理,得到至少兩組分詞詞匯,以所有分詞詞匯中互不相同的分詞詞匯作為關(guān)鍵詞;
文檔集檢索模塊,用于通過預(yù)先設(shè)置的關(guān)鍵詞到文檔的關(guān)鍵詞索引,檢索出與各所述關(guān)鍵詞相關(guān)的文檔集;
第一置信度確定模塊,用于確定各所述關(guān)鍵詞的置信度;所述關(guān)鍵詞的置信度表示所述關(guān)鍵詞與所述被檢索內(nèi)容的相關(guān)度;
第二置信度確定模塊,用于通過文檔到關(guān)鍵詞置信度的關(guān)鍵詞置信度索引,檢索出各所述關(guān)鍵詞在各所述文檔中的置信度;
排序模塊,用于根據(jù)各所述關(guān)鍵詞與各所述文檔的第一相關(guān)度,對各所述文檔集中的所有文檔進行排序;所述第一相關(guān)度包括:所述關(guān)鍵詞的置信度、所述關(guān)鍵詞在各所述文檔中的置信度,和第二相關(guān)度;所述第二相關(guān)度包括:所述關(guān)鍵詞在各所述文檔中出現(xiàn)的頻率、以及與各所述關(guān)鍵詞相關(guān)的各所述文檔在所有文檔中出現(xiàn)的頻率。
7.根據(jù)權(quán)利要求6所述的檢索裝置,其特征在于,所述第一置信度確定模塊,包括:第一權(quán)值確定子模塊,用于根據(jù)各所述分詞方法的分詞準確度,確定各組分詞詞匯的準確度權(quán)值;?
第一置信度確定子模塊,用于根據(jù)所述各組分詞詞匯的準確度權(quán)值,確定各所述關(guān)鍵詞的置信度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于青島普加智能信息有限公司,未經(jīng)青島普加智能信息有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010100873.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





