[發(fā)明專利]具有明顯類別劃分的非結(jié)構(gòu)化電子文檔的檢索方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201210525908.5 | 申請(qǐng)日: | 2012-12-07 |
| 公開(公告)號(hào): | CN103020213A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設(shè)計(jì))人: | 倪時(shí)龍;宋立華;余深田;鄭映;洪順淋 | 申請(qǐng)(專利權(quán))人: | 福建億榕信息技術(shù)有限公司;國(guó)家電網(wǎng)公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 福州市鼓樓區(qū)京華專利事務(wù)所(普通合伙) 35212 | 代理人: | 宋連梅 |
| 地址: | 350000 福建省福*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 具有 明顯 類別 劃分 結(jié)構(gòu) 電子 文檔 檢索 方法 系統(tǒng) | ||
【技術(shù)領(lǐng)域】
本發(fā)明涉及一種具有明顯類別劃分的非結(jié)構(gòu)化電子文檔的檢索方法和系統(tǒng)。
【背景技術(shù)】
數(shù)字資產(chǎn)是企業(yè)中最具價(jià)值的無(wú)形資產(chǎn)之一。數(shù)字資產(chǎn)通常可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),所謂結(jié)構(gòu)化數(shù)據(jù)是指具有良好定義的結(jié)構(gòu),能夠被方便解析,并可以在關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)是相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言不便于采用二維表結(jié)構(gòu)表示的數(shù)據(jù)類型。大型企業(yè)的各業(yè)務(wù)應(yīng)用系統(tǒng)中,非結(jié)構(gòu)化文檔格式多樣化、文檔內(nèi)容多樣化、相關(guān)流程多樣化的非結(jié)構(gòu)化數(shù)據(jù)文檔全面覆蓋了公司經(jīng)營(yíng)管理的方方面面,但其具有明顯類別劃分的特點(diǎn)。
通常,非結(jié)構(gòu)化數(shù)據(jù)通常是由若干具有業(yè)務(wù)相關(guān)性的非結(jié)構(gòu)化數(shù)據(jù)按照國(guó)家相關(guān)標(biāo)準(zhǔn)進(jìn)行封裝后而形成,是由企業(yè)在長(zhǎng)時(shí)間、耗費(fèi)了大量的人力、物力、財(cái)力的基礎(chǔ)上形成的,含有大量可挖掘的、有助于提升企業(yè)經(jīng)營(yíng)效益的重要信息。
隨著企業(yè)信息化程度的逐漸深化,非結(jié)構(gòu)化數(shù)據(jù)文檔的數(shù)量呈不斷上升的趨勢(shì)。根據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù),在現(xiàn)代大型企業(yè)中,非結(jié)構(gòu)化數(shù)據(jù)占比達(dá)80%以上,而其中最有價(jià)值的、可被進(jìn)行二次加工的非結(jié)構(gòu)化數(shù)據(jù)是以電子文檔。
作為電子文檔使用的入口,電子文檔檢索系統(tǒng)在企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理中扮演了重要的角色。通過(guò)檢索,才能在海量的企業(yè)電子文檔中定位到目標(biāo)電子文檔,從而使得非結(jié)構(gòu)化數(shù)據(jù)能夠真正被全面使用。然而,電子文檔的搜索質(zhì)量保證是工業(yè)界普遍面臨的難題,一方面是因?yàn)殡娮游臋n的數(shù)目通常是巨大的,從幾千萬(wàn)乃至上億的文檔中識(shí)別出用戶想要找到的文檔從概率上看就不是一件容易的事,另一方面還因?yàn)椴煌诰W(wǎng)頁(yè)之間存在的“超鏈接”關(guān)聯(lián),電子文檔的分布是以個(gè)體形式、孤立存在的,所以難以通過(guò)類似Google的Page-Rank算法類似的“民主投票法”得到電子文檔的“質(zhì)量”,從而完善搜索相關(guān)性。
在工業(yè)界,目前有幾下幾種主流的電子文檔檢索方法:
1.基于關(guān)鍵詞檢索
關(guān)鍵詞是指由文檔作者提供的一種限定性描述文檔所屬領(lǐng)域的“關(guān)鍵詞”,例如提交學(xué)術(shù)文獻(xiàn)時(shí)(如學(xué)術(shù)論文),文獻(xiàn)發(fā)表機(jī)構(gòu)通常會(huì)讓作者在提交文獻(xiàn)時(shí)同時(shí)給出該文獻(xiàn)的若干關(guān)鍵詞,以用于后續(xù)檢索需要。以本發(fā)明為例,關(guān)鍵詞會(huì)包含:“電子文檔”、“檢索”、“大型企業(yè)”、“電子文檔檢索”等。
基于關(guān)鍵詞的搜索,一般是指系統(tǒng)根據(jù)用戶輸入的文字,對(duì)所管理的電子文檔的關(guān)鍵詞進(jìn)行一一匹配,如果關(guān)鍵詞和輸入文字匹配,那么該文檔就會(huì)出現(xiàn)在搜索結(jié)果中。
公開日為2005.04.27,公開號(hào)為CN1609848的中國(guó)發(fā)明即采用關(guān)鍵詞的搜索方法,其揭示了一種預(yù)先定義關(guān)鍵詞的電子文檔搜索方法,預(yù)先定義關(guān)鍵詞的電子文檔搜索方法,利用文檔提供者預(yù)先定義電子文檔A1的關(guān)鍵詞B1,由軟件程序D將此關(guān)鍵詞及電子文檔的保存地址b1作為鏈接存儲(chǔ)到關(guān)鍵詞及電子文檔地址集合B.文檔的搜索人利用集合B的用戶界面-關(guān)鍵詞列表C,通過(guò)選擇關(guān)鍵詞B1及自由輸入關(guān)鍵詞查詢到電子文檔的存儲(chǔ)地址b1,實(shí)現(xiàn)快速搜索的目的。
該發(fā)明方法有較大缺陷,所以目前除了專業(yè)的學(xué)術(shù)文獻(xiàn)信息檢索系統(tǒng)外,已經(jīng)較少使用。它的主要缺點(diǎn)之一是:關(guān)鍵詞難以精確限定文檔的涉及范圍。例如本文的關(guān)鍵詞——“檢索”,幾乎會(huì)出現(xiàn)在所有和檢索方法、系統(tǒng)有關(guān)的所有文獻(xiàn)中,這樣就導(dǎo)致搜索范圍太廣,搜索匹配結(jié)果巨大。然而,如果關(guān)鍵詞修改為較為精確的細(xì)節(jié)描述,雖然能夠精確表達(dá)文檔所涉及的一個(gè)具體范圍,但確另用戶的輸入檢索詞很難和關(guān)鍵詞匹配上,造成文檔無(wú)法通過(guò)搜索定位到。另外,由于關(guān)鍵詞的選取沒(méi)有標(biāo)準(zhǔn),不同作者對(duì)同一類文檔給出的關(guān)鍵詞也很不一樣,這就更降低了關(guān)鍵詞搜索方法的搜索準(zhǔn)確率。
2.基于全文檢索
基于全文的檢索方法,是指系統(tǒng)根據(jù)用戶輸入的文字,對(duì)所管理的電子文檔的全文所有詞組進(jìn)行一一匹配,如果電子文檔中含有和輸入文字相匹配的文字,那么該文檔就會(huì)出現(xiàn)在搜索結(jié)果中。
這種方法的一個(gè)關(guān)鍵技術(shù)是文章的分詞,即將全文中的所有文字,按照最合理的方法,拆分成“詞”的組合。在中文領(lǐng)域,特別要解決中文中存在的“多義詞組”問(wèn)題,如“南京市長(zhǎng)江大橋”可以被分解為“南京市+長(zhǎng)江大橋”或“南京市長(zhǎng)+江大橋”。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建億榕信息技術(shù)有限公司;國(guó)家電網(wǎng)公司,未經(jīng)福建億榕信息技術(shù)有限公司;國(guó)家電網(wǎng)公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210525908.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





