[發(fā)明專利]一種全文檢索文檔數(shù)據(jù)庫(kù)的方法及裝置無效
| 申請(qǐng)?zhí)枺?/td> | 201010195408.0 | 申請(qǐng)日: | 2010-05-31 |
| 公開(公告)號(hào): | CN102262640A | 公開(公告)日: | 2011-11-30 |
| 發(fā)明(設(shè)計(jì))人: | 徐銳;陳旭毅;吳青發(fā) | 申請(qǐng)(專利權(quán))人: | 中國(guó)移動(dòng)通信集團(tuán)貴州有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京德琦知識(shí)產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 王一斌;王琦 |
| 地址: | 550004*** | 國(guó)省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 全文 檢索 文檔 數(shù)據(jù)庫(kù) 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及檢索技術(shù),特別涉及一種全文檢索文檔數(shù)據(jù)庫(kù)的方法及裝置。
背景技術(shù)
當(dāng)前運(yùn)營(yíng)商在信息化支撐領(lǐng)域的發(fā)展方向是以企業(yè)用戶為中心,加強(qiáng)組織、流程、人員的協(xié)作。其中,辦公自動(dòng)化系統(tǒng)(OA,Office?Automation)、知識(shí)管理系統(tǒng)作為企業(yè)信息化的不可或缺核心系統(tǒng),其中涉及的知識(shí)文檔、公文文檔一般采用文檔數(shù)據(jù)庫(kù)進(jìn)行管理并提供搜索引擎,用戶可以通過輸入關(guān)鍵字詞的方式進(jìn)行檢索獲取需要的文檔信息。
文檔數(shù)據(jù)庫(kù)屬于數(shù)據(jù)庫(kù)范疇,可以共享相同的數(shù)據(jù),具有數(shù)據(jù)的物理獨(dú)立性和邏輯獨(dú)立性,數(shù)據(jù)和程序分離,允許創(chuàng)建許多不同類型的非結(jié)構(gòu)化的或任意格式的字段,提供非結(jié)構(gòu)化數(shù)據(jù)處理,不提供對(duì)參數(shù)完整性和分布事務(wù)的支持,關(guān)于文檔數(shù)據(jù)庫(kù)的其它相關(guān)內(nèi)容,可參見相關(guān)的技術(shù)文獻(xiàn),在此不再贅述。
文檔數(shù)據(jù)庫(kù)的產(chǎn)品,例如,Lotus?Domino/Notes,目前應(yīng)用十分廣泛,企業(yè)能夠充分利用文檔數(shù)據(jù)庫(kù)集成的開發(fā)環(huán)境的優(yōu)勢(shì),即文檔數(shù)據(jù)庫(kù)的文檔和表單驅(qū)動(dòng)的應(yīng)用開發(fā)模式,可以有效地縮短開發(fā)周期。
由于在文檔數(shù)據(jù)庫(kù)中,可以任意為記錄添加字段,可以添加列表型的字段,可以處理富文本格式(RTF,Rich?Text?Format)域、附件這樣的大對(duì)象。因而,提供了靈活的數(shù)據(jù)處理方式。
文檔數(shù)據(jù)庫(kù)以文檔(文件)的形式存儲(chǔ)特定的業(yè)務(wù)數(shù)據(jù)的內(nèi)容,因而,在使用過程中存在的最大問題就是面對(duì)海量的知識(shí)文檔和辦公自動(dòng)化系統(tǒng)附件,如何能夠幫助用戶盡快定位其需要的知識(shí)和辦公自動(dòng)化系統(tǒng)附件。現(xiàn)有技術(shù)中一般通過文檔數(shù)據(jù)庫(kù)自身提供的全文檢索去查詢文檔數(shù)據(jù)庫(kù)中的文檔,這樣,在文檔數(shù)量較大時(shí),全文檢索往往會(huì)得到一個(gè)較大的結(jié)果集,用戶面對(duì)的還是一個(gè)海量的數(shù)據(jù)結(jié)果,無法滿足用戶的查詢要求。具體來說,首先,全文檢索查詢效率低,例如在工作流自動(dòng)化應(yīng)用方面,隨著公文文檔數(shù)量增加,文檔數(shù)據(jù)庫(kù)容量日益增大,由于數(shù)據(jù)庫(kù)容量的增長(zhǎng),文檔數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)處理的能力大大降低,尤其在數(shù)據(jù)查詢檢索方面,使得查詢檢索所需時(shí)間大大增加、查詢效率顯著下降。其次,查詢結(jié)果不精確,由于文檔數(shù)據(jù)庫(kù)內(nèi)嵌的搜索引擎對(duì)全文檢索支持較差,例如,文檔中可能包含不同格式的附件,舉例來說,一個(gè)文檔中可以包含WORD附件、PDF附件等,因此,在進(jìn)行全文檢索時(shí),需要文檔數(shù)據(jù)庫(kù)提供針對(duì)不同格式的附件的解析器以便進(jìn)行檢索并讀取附件中的內(nèi)容,而文檔數(shù)據(jù)庫(kù)內(nèi)嵌的搜索引擎不具有解析器,因而,在文檔中存在不同格式的附件時(shí),可能導(dǎo)致用戶無法查找到需要的文檔或返回一個(gè)完全不相關(guān)的文檔集合。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提出一種全文檢索文檔數(shù)據(jù)庫(kù)的方法,提高全文檢索的查詢效率。
本發(fā)明的另一目的在于提出一種全文檢索文檔數(shù)據(jù)庫(kù)的裝置,提高全文檢索的查詢效率。
為達(dá)到上述目的,本發(fā)明提供了一種全文檢索文檔數(shù)據(jù)庫(kù)的方法,該方法包括:
查詢文檔中的附件并對(duì)查詢得到的附件按照預(yù)先設(shè)置的策略進(jìn)行文檔轉(zhuǎn)換;
按照業(yè)務(wù)分類文檔數(shù)據(jù)庫(kù)中的文檔,生成文檔數(shù)據(jù)子庫(kù);
為生成的文檔數(shù)據(jù)子庫(kù)建立全文索引目錄,并存儲(chǔ)在預(yù)先設(shè)置的關(guān)系數(shù)據(jù)庫(kù)中;
接收用戶輸入的搜索關(guān)鍵字詞,匹配關(guān)系數(shù)據(jù)庫(kù)中的全文索引目錄,獲取匹配的全文索引目錄對(duì)應(yīng)的文檔數(shù)據(jù)庫(kù)中的文檔。
進(jìn)行文檔轉(zhuǎn)換后的文檔結(jié)構(gòu)為可擴(kuò)展標(biāo)記語言文檔結(jié)構(gòu)。
所述接收用戶輸入的搜索關(guān)鍵字詞,匹配關(guān)系數(shù)據(jù)庫(kù)中的全文索引目錄,獲取匹配的全文索引目錄對(duì)應(yīng)的文檔具體包括:數(shù)據(jù)庫(kù)中的文檔文檔數(shù)據(jù)庫(kù)中的搜索程序接收用戶輸入的搜索關(guān)鍵字詞,根據(jù)搜索關(guān)鍵字詞搜索關(guān)系數(shù)據(jù)庫(kù)中的全文索引目錄,查找與搜索關(guān)鍵字詞匹配的全文索引目錄,然后根據(jù)查找得到的全文索引目錄,定位該全文索引目錄對(duì)應(yīng)的文檔數(shù)據(jù)庫(kù)中的文檔,并將得到的文檔信息返回給搜索用戶。
在所述接收用戶輸入的搜索關(guān)鍵字詞的步驟之后,匹配關(guān)系數(shù)據(jù)庫(kù)中的全文索引目錄的步驟之前,進(jìn)一步包括:對(duì)用戶輸入的搜索關(guān)鍵字詞進(jìn)行分詞處理。
在所述匹配關(guān)系數(shù)據(jù)庫(kù)中的全文索引目錄的步驟之后,獲取匹配的全文索引目錄對(duì)應(yīng)的文檔數(shù)據(jù)庫(kù)中的文檔的步驟之前,進(jìn)一步包括:將匹配的全文索引目錄信息作為初次搜索結(jié)果信息向用戶顯示,根據(jù)用戶從初次搜索結(jié)果信息中選擇的全文索引目錄信息,執(zhí)行所述獲取匹配的全文索引目錄對(duì)應(yīng)的文檔數(shù)據(jù)庫(kù)中的文檔的步驟。
進(jìn)一步包括:判斷文檔修改日志是否發(fā)生變化,如果是,讀取文檔修改日志,并與全文索引目錄中的索引進(jìn)行對(duì)比,獲取需要同步的文檔數(shù)據(jù),修改索引中的相應(yīng)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)移動(dòng)通信集團(tuán)貴州有限公司,未經(jīng)中國(guó)移動(dòng)通信集團(tuán)貴州有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010195408.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)系型數(shù)據(jù)庫(kù)與全文檢索相結(jié)合的檢索方法
- 基于MySQL存儲(chǔ)引擎的融合查詢方法
- 用于給安全文件,尤其是凹版印刷的安全文件例如鈔票上漆的方法和用于實(shí)現(xiàn)該方法的上漆機(jī)器
- 安全文件的防偽系統(tǒng)和防偽方法及防偽和鑒別單元
- 一種安全文檔日志管理方法及服務(wù)器
- 一種安全文檔操作的判斷方法及裝置
- 一種權(quán)限瞬時(shí)授予與收回方法及裝置
- 一種全文索引的更新方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 全文檢索系統(tǒng)及方法
- 安全文件傳輸工具的切換方法、裝置、計(jì)算機(jī)設(shè)備和介質(zhì)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)管理系統(tǒng)及數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)構(gòu)筑裝置、數(shù)據(jù)庫(kù)檢索裝置、數(shù)據(jù)庫(kù)裝置、數(shù)據(jù)庫(kù)構(gòu)筑方法、以及數(shù)據(jù)庫(kù)檢索方法
- 數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)處理方法
- 數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)庫(kù)更新方法、數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)更新程序
- 容器數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)同步方法及數(shù)據(jù)庫(kù)
- 一種MongoDB數(shù)據(jù)庫(kù)對(duì)象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫(kù)語句執(zhí)行方法及裝置





