[發明專利]檢索方法、索引建立方法和裝置及檢索系統有效
| 申請號: | 201010100873.1 | 申請日: | 2010-01-25 |
| 公開(公告)號: | CN101819578A | 公開(公告)日: | 2010-09-01 |
| 發明(設計)人: | 袁行遠;謝清祿;余孟春 | 申請(專利權)人: | 青島普加智能信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 266555 山東省青島市經*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索 方法 索引 建立 裝置 檢索系統 | ||
技術領域
本發明涉及計算機技術領域,尤其涉及一種檢索方法、索引建立方法和裝置及檢索系統。?
背景技術
隨著計算機技術和網絡技術的飛速發展,出現了海量的網絡信息。為了工作和生活的方便,人們需要利用信息檢索技術從網絡中獲取需要的信息。目前主流的信息檢索技術是基于關鍵詞的信息檢索技術。基于關鍵詞的信息檢索技術是建立在對被檢索內容進行分詞的基礎之上。傳統的分詞方式可分為單字分詞和自然語言分詞兩大類。單詞分詞將中文字符串簡單切分成單個字,早期的中文搜索引擎大多使用單個字分詞。自然語言分詞將中文字符串盡可能切分為符合人類習慣的詞匯單元,現有的中文搜索引擎大多使用自然語言分詞。?
現有的中文搜索引擎先對用戶輸入的檢索短語進行分詞,把分詞后得到的詞語作為關鍵詞,然后在索引中查找結果。例如,短語“奶啤酒瓶”,若采用正向最大匹配分詞方法,可切分成“奶”和“啤酒瓶”;若采用逆向最大匹配分詞算短語,可切分為“奶啤酒”和“瓶”。又例如,句子“乒乓球拍賣完了”,若采用正向最大匹配分詞方法,可切分成“乒乓球拍”和“賣完了”;若采用逆向最大匹配分詞方法,可切分為“乒乓球”和“拍賣完了”。由此可見,對同一短語或句子有可能形成兩種或兩種以上的、且都有效的分詞結果,稱之為分詞歧義。?
在根據上述多種分詞結果檢索出的相關文檔集中,各分詞結果與各文檔的相關度是互不相同的。然而,現有中文搜索引擎,在對這些相關文檔集進行排序時,沒有考慮到上述多種分詞結果與檢索出文檔的相關度,以及這些分詞結果與檢索短語的相關度,致使排序結果的可靠性較低。?
發明內容
本發明實施例提供一種檢索方法、索引建立方法和裝置及檢索系統,使用戶能在排序結果中,快速查找出與檢索短語相關度較高的文檔,提高了排序結果的可靠性。?
本發明實施例提供一種檢索方法,包括:?
通過至少兩種分詞方法分別對被檢索內容進行分詞處理,得到至少兩組分詞詞匯,以所有分詞詞匯中互不相同的分詞詞匯作為關鍵詞;?
通過預先設置的關鍵詞到文檔的關鍵詞索引,檢索出與各所述關鍵詞相關的文檔集;?
確定各所述關鍵詞的置信度,所述關鍵詞的置信度表示所述關鍵詞與所述被檢索內容的相關度;并通過文檔到關鍵詞置信度的關鍵詞置信度索引,檢索出各所述關鍵詞在各所述文檔中的置信度;?
根據各所述關鍵詞與各所述文檔的第一相關度,對各所述文檔集中的所有文檔進行排序;所述第一相關度包括:所述關鍵詞的置信度、所述關鍵詞在各所述文檔中的置信度,和第二相關度;所述第二相關度包括:所述關鍵詞在各所述文檔中出現的頻率、以及與各所述關鍵詞相關的各所述文檔在所有文檔中出現的頻率。?
本發明實施例還提供一種索引建立方法,包括:?
通過至少兩種分詞方法分別對被選擇文檔進行分詞處理,得到至少兩組分詞詞匯,以所有分詞詞匯中互不相同的分詞詞匯作為關鍵詞;?
采用倒排索引方法建立各所述關鍵詞到所述被選擇文檔的關鍵詞索引;?
確定各所述關鍵詞在各所述被選擇文檔中的置信度;所述關鍵詞在所述被選擇文檔中的置信度,表示所述關鍵詞與所述被選擇文檔的相關度;?
建立所述被選擇文檔到各所述關鍵詞在所述被選擇文檔中的置信度的關鍵詞置信度索引。?
本發明實施例還提供一種檢索裝置,包括:?
檢索關鍵詞確定模塊,用于通過至少兩種分詞方法分別對被檢索內容進行分詞處理,得到至少兩組分詞詞匯,以所有分詞詞匯中互不相同的分詞詞匯作為關鍵詞;?
文檔集檢索模塊,用于通過預先設置的關鍵詞到文檔的關鍵詞索引,檢索出與各所述關鍵詞相關的文檔集;?
第一置信度確定模塊,用于確定各所述關鍵詞的置信度;所述關鍵詞的置信度表示所述關鍵詞與所述被檢索內容的相關度?
第二置信度確定模塊,用于通過文檔到關鍵詞置信度的關鍵詞置信度索引,檢索出各所述關鍵詞在各所述文檔中的置信度;?
排序模塊,用于根據各所述關鍵詞與各所述文檔的第一相關度,對各所述文檔集中的所有文檔進行排序;所述第一相關度包括:所述關鍵詞的置信度、所述關鍵詞在各所述文檔中的置信度,和第二相關度;所述第二相關度包括:所述關鍵詞在各所述文檔中出現的頻率、以及與各所述關鍵詞相關的各所述文檔在所有文檔中出現的頻率。?
本發明實施例還提供一種索引建立裝置,包括:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島普加智能信息有限公司,未經青島普加智能信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010100873.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能音響系統和智能音響終端
- 下一篇:一種無線擴音式教學音箱





