[發明專利]文檔檢索方法和裝置有效
| 申請號: | 201010621819.1 | 申請日: | 2010-12-27 |
| 公開(公告)號: | CN102567420A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 童征宇;徐劍波 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 檢索 方法 裝置 | ||
1.一種文檔檢索方法,其特征在于,該方法包括:
檢索到包含檢索關鍵詞中的檢索分詞的多個文檔后,根據所述檢索關鍵詞中的檢索分詞在檢索到的多個文檔中的位置和檢索到的多個文檔的數據長度,對檢索到的多個文檔進行排序;
按照對檢索到的多個文檔進行排序的排序結果,將檢索到的多個文檔作為檢索結果返回。
2.如權利要求1所述的方法,其特征在于,所述根據所述檢索關鍵詞中的檢索分詞在檢索到的多個文檔中的位置和檢索到的多個文檔的數據長度,對檢索到的多個文檔進行排序包括:
根據預先設定的文檔相關度值計算公式,分別計算檢索到的多個文檔的相關度值;所述文檔相關度值計算公式滿足以下條件:所述檢索關鍵詞所包含的檢索分詞在文檔中的位置越靠前,根據該文檔相關度值計算公式計算得到的相關度值越大,文檔的數據長度越小,根據該文檔相關度值計算公式計算得到的相關度值越大;
按照計算得到的多個文檔的相關度值的大小順序,將該多個文檔進行排序。
3.如權利要求2所述的方法,其特征在于,所述文檔相關度值計算公式為:
其中,scord(d)為文檔d的文檔相關度值;len為文檔的數據長度,pos(t)為所述檢索關鍵詞所包含的第t個檢索分詞在文檔中的位置值,N為所述檢索關鍵詞所包含的檢索分詞的個數。
4.如權利要求1-3中任一所述的方法,其特征在于,檢索包含檢索關鍵詞中的檢索分詞的多個文檔包括:
接收包含檢索關鍵詞的檢索請求;
確定所述檢索關鍵詞所包含的檢索分詞,并確定該檢索分詞中的特定檢索分詞在目標文檔中所處的位置需要滿足的條件;
查找包含確定的檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔;
將查找到的多個文檔的信息作為檢索結果返回。
5.如權利要求4所述的方法,其特征在于,在所述特定檢索分詞包括所述檢索關鍵詞所包含的第一個檢索分詞時,所述確定該檢索分詞中的特定檢索分詞在目標文檔中所處的位置需要滿足的條件包括:
根據所述檢索關鍵詞的格式,確定所述檢索關鍵詞所包含的第一個檢索分詞在目標文檔中的位置與目標文檔的起始位置所需要滿足的第一位置關系;
所述查找包含確定的檢索分詞并且特定檢索分詞所在的位置滿足所述條件的文檔包括:
查找包含確定的檢索分詞并且所述第一個檢索分詞滿足所述第一位置關系的文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010621819.1/1.html,轉載請聲明來源鉆瓜專利網。





