[發明專利]文檔搜索方法和裝置及文檔處理器有效
| 申請號: | 200810098174.0 | 申請日: | 2008-05-26 |
| 公開(公告)號: | CN101593179A | 公開(公告)日: | 2009-12-02 |
| 發明(設計)人: | 楊建龍;沈星星;鐘嘉田;周財 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 | 代理人: | 李春暉;李德山 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 搜索 方法 裝置 處理器 | ||
1.一種文檔搜索方法,包括步驟:
按照預定提取規則提取待搜索文檔中相應詞的首字符以形成首字符串;
構建所提取的首字符串與待搜索文檔的對應關系;
在首字符串與待查找的縮寫字符串之間進行匹配;以及
根據匹配結果和對應關系,確定待查找的縮寫字符串所對應的擴展詞組及其在待搜索文檔中的位置。
2.如權利要求1所述的文檔搜索方法,其中:
所述提取步驟中的預定提取規則為如下中的至少一種:
提取待搜索文檔中所有詞的首字符;
對待搜索文檔中不表示主要意思的小詞不進行提取處理;
只提取待搜索文檔中首字符是大寫字母的詞的首字符;和
提取待搜索文檔中連續多個以上的大寫字母中的每一個字母。
3.如權利要求1所述的文檔搜索方法,其中:
所提取的首字符串與待搜索文檔的對應關系包括首字符串中各個字符在待搜索文檔中對應的擴展詞及其在待搜索文檔中的位置。
4.如權利要求3所述的文檔搜索方法,其中:
所述對應關系采用如下形式中的至少一種來記錄:映射表、關系型數據庫、數據鏈表、數組。
5.如權利要求1所述的文檔搜索方法,其中:
在實際執行文檔搜索之前預先執行所述提取步驟和對應關系構建步驟,一旦待搜索文檔被更新,根據對文檔的修改來更新執行提取和構建對應關系的處理結果。
6.如權利要求1所述的文檔搜索方法,其中:
使用如下字符串匹配方法中的至少一種來執行所提取的首字符串與待查找的縮寫字符串之間的匹配:Brute?Force方法,Knuth-Morris-Pratt方法、Boyer-Moore方法以及Aho-Corasick方法。
7.如權利要求1所述的文檔搜索方法,其中:
所述提取步驟以待搜索文檔的段落為單位分別提取首字符串,將換行符作為一個段落結束的標志,每個段落提取后分別對應一個單獨的首字符串,并對整個文檔提取出的所有首字符串按照段落順序進行編號;以及
在對應關系構建步驟中針對每個段落分別構建各自的對應關系,或者針對所有段落構建總體的對應關系,其中根據有關段落編號的信息來識別總體的對應關系中針對各個段落的對應關系部分。
8.一種文檔搜索裝置,包括:
提取單元,用于按照預定提取規則提取待搜索文檔中相應詞的首字符以形成首字符串;
構建單元,用于構建所提取的首字符串與待搜索文檔的對應關系;
匹配單元,用于在首字符串與待查找的縮寫字符串之間進行匹配;以及
定位單元,用于根據匹配結果和對應關系,確定待查找的縮寫字符串所對應的擴展詞組及其在待搜索文檔中的位置。
9.如權利要求8所述的文檔搜索裝置,其中,所述提取單元被配置成按照下述預定提取規則中的至少一種來執行提?。?/p>
提取待搜索文檔中所有詞的首字符;
對待搜索文檔中不表示主要意思的小詞不進行提取處理;
只提取待搜索文檔中首字符是大寫字母的詞的首字符;和
提取待搜索文檔中連續多個以上的大寫字母中的每一個字母。
10.如權利要求8所述的文檔搜索裝置,其中所述構建單元構建的首字符串與待搜索文檔的對應關系包括首字符串中各個字符在待搜索文檔中對應的擴展詞及其在待搜索文檔中的位置。
11.如權利要求10所述的文檔搜索裝置,其中:
所述對應關系采用如下形式中的至少一種來記錄:映射表、關系型數據庫、數據鏈表、數組。
12.如權利要求8所述的文檔搜索裝置,其中:
所述提取單元和所述對應關系構建單元被配置成在實際執行文檔搜索之前預先進行所述的提取處理和對應關系構建處理,一旦待搜索文檔被更新,則根據對文檔的修改來更新執行提取和構建對應關系的處理結果。
13.如權利要求8所述的文檔搜索裝置,其中:
所述匹配單元被配置成使用如下字符串匹配方法中的至少一種來執行所提取的首字符串與待查找的縮寫字符串之間的匹配:Brute?Force方法,Knuth-Morris-Pratt方法、Boyer-Moore方法以及Aho-Corasick方法。
14.如權利要求8所述的文檔搜索裝置,其中,
所述提取單元被配置成以待搜索文檔的段落為單位分別提取首字符串,將換行符作為一個段落結束的標志,每個段落提取后分別對應一個單獨的首字符串,并對整個文檔提取出的所有首字符串按照段落順序進行編號;以及,
所述構建單元被配置成針對每個段落分別構建各自的對應關系,或者針對所有段落構建總體的對應關系,其中根據有關段落編號的信息來識別總體的對應關系中針對各個段落的對應關系部分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810098174.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:應急處理流程的信息化方法
- 下一篇:燃油濾清器組件





