[發明專利]文檔檢索方法和裝置有效
| 申請號: | 201010621819.1 | 申請日: | 2010-12-27 |
| 公開(公告)號: | CN102567420A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 童征宇;徐劍波 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 檢索 方法 裝置 | ||
技術領域
本發明涉及計算機信息處理領域,尤其涉及一種文檔檢索方法和裝置。
背景技術
全文檢索是指全文檢索系統通過掃描文檔中的每一個詞,對每一個詞建立一個索引項,指明該詞在文檔中出現的次數和位置,當用戶提交檢索請求時,全文檢索系統就根據事先建立的索引文件進行查找,將查找的結果按照某種排序方式返回給用戶的檢索方式。實際應用中,全文檢索系統處理的一個文檔可能包含多個字段,如標題、作者、正文等。
具體的,在用戶提交檢索請求后,全文檢索系統分析確定檢索請求中的檢索關鍵詞包含的檢索分詞,檢索分詞是指對檢索關鍵詞進行字符劃分后形成的分詞,具體如何將檢索關鍵詞進行字符劃分,根據不同的算法具有不同的劃分方式,例如,可以將檢索關鍵詞中的每個字符劃分為一個檢索分詞,也可以將檢索關鍵詞中的每兩個字符劃分為一個檢索分詞,等等;然后,在索引文件中查找包含所有檢索分詞的文檔,并將該文檔的信息作為檢索結果提供給用戶。在短語檢索即檢索關鍵詞中包含多個檢索分詞的情況下,在查找包含所有檢索分詞的文檔后,還需要進一步對該文檔中的多個檢索分詞的位置關系進行匹配,以確定該多個檢索分詞的位置關系是否與檢索請求中包含的多個檢索分詞的位置關系一致,若匹配一致,則將該文檔的信息作為檢索結果提供給用戶,否則,不將該文檔作為檢索結果。例如,檢索關鍵詞中包含的檢索分詞包括“分詞”和“規則”,并且這兩個檢索分詞的位置關系為相鄰,即這兩個檢索分詞之間不包含其它字符,在查找到包含“分詞”和“規則”的文檔后,對該文檔中“分詞”和“規則”的位置關系進行匹配,若該文檔中“分詞”和“規則”相鄰,即該文檔中包含“分詞規則”,則將該文檔的信息作為檢索結果提供給用戶,否則,不將該文檔作為檢索結果。
在查找得到多個檢索結果后,需要將多個檢索結果按照一定規則進行排序,最后按照排序順序將多個檢索結果提供給用戶。對于各種全文檢索系統,檢索結果的排序是否符合用戶的需求是評價其優劣的關鍵因素。目前,全文檢索系統普遍使用向量空間模型對檢索結果進行排序,具體的,該模型根據詞頻(Team?Frequency,TF)/倒排文檔頻率(Invert?Document?Frequency,IDF),計算檢索分詞在文檔中的量化權重值,根據計算得到的每個文檔的量化權重值對各文檔進行排序。TF是指一個檢索分詞在文檔中出現的頻率,它描述該檢索分詞在一篇特定文檔中的重要性;IDF是倒排文檔頻率,它描述的是檢索分詞在所有文檔中出現的頻率,即該檢索分詞的普遍重要性,如“我”,“什么”這些詞幾乎在所有的文檔中都會出現,所以這些詞即使在一篇特定的文檔中出現的頻率很高,也不是很重要。總的來說就是,一篇特定文檔的優先級,與檢索分詞的TF成正比,與IDF成反比。
在實現本發明的過程中,發明人發現現有技術中存在以下技術問題:
現有的檢索結果排序方式中,根據檢索分詞的TF和IDF對檢索結果進行排序,如何根據檢索分詞出現在文檔中的位置以及文檔的數據長度對檢索結果進行排序,目前還沒有具體的實現方案。
發明內容
本發明實施例提供一種文檔檢索方法和裝置,用于解決無法根據檢索分詞出現在文檔中的位置以及文檔的數據長度對檢索結果進行排序的問題。
一種文檔檢索方法,該方法包括:
檢索到包含檢索關鍵詞中的全部檢索分詞的多個文檔后,根據所述檢索關鍵詞中的檢索分詞在檢索到的多個文檔中的位置和檢索到的多個文檔的數據長度,對檢索到的多個文檔進行排序;
按照對檢索到的多個文檔進行排序的排序結果,將檢索到的多個文檔作為檢索結果返回。
一種文檔檢索裝置,該裝置包括:
檢索單元,用于檢索包含檢索關鍵詞中的全部檢索分詞的多個文檔;
排序單元,用于根據所述檢索關鍵詞中的檢索分詞在檢索到的多個文檔中的位置和檢索到的多個文檔的數據長度,對檢索到的多個文檔進行排序;
結果返回單元,用于按照對檢索到的多個文檔進行排序的排序結果,將檢索到的多個文檔作為檢索結果返回。
本發明實施例提供的方案中,在檢索到包含檢索關鍵詞中的全部檢索分詞的多個文檔后,根據所述檢索關鍵詞中的檢索分詞在檢索到的多個文檔中的位置和檢索到的多個文檔的數據長度,對檢索到的多個文檔進行排序,并按照對檢索到的多個文檔進行排序的排序結果,將檢索到的多個文檔作為檢索結果返回。可見,采用本發明,能夠根據檢索分詞出現在文檔中的位置以及文檔的數據長度對檢索結果進行排序,進而使得檢索文檔的排序結果更加精確,更好的滿足用戶需求。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010621819.1/2.html,轉載請聲明來源鉆瓜專利網。





