[發(fā)明專利]文檔處理系統(tǒng)和方法無效
| 申請?zhí)枺?/td> | 201210272218.3 | 申請日: | 2012-08-01 |
| 公開(公告)號: | CN103577459A | 公開(公告)日: | 2014-02-12 |
| 發(fā)明(設計)人: | 王東臨 | 申請(專利權(quán))人: | 天津書生投資有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300308 天津市濱海新區(qū)空港*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 處理 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種文檔處理系統(tǒng)和方法。
背景技術(shù)
信息可大致分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中以書面文檔和流媒體為主的非結(jié)構(gòu)化數(shù)據(jù)根據(jù)資料統(tǒng)計占有量超過百分之七十。結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)比較簡單,即一個二維表結(jié)構(gòu),其處理技術(shù)以數(shù)據(jù)為代表,主要是利用數(shù)據(jù)庫系統(tǒng)進行處理,從上世紀七八十年代開始發(fā)展,到九十年代達到頂峰,研發(fā)和應用已經(jīng)比較成熟。非結(jié)構(gòu)化數(shù)據(jù)則沒有固定數(shù)據(jù)結(jié)構(gòu),因此對非結(jié)構(gòu)化數(shù)據(jù)的處理非常的復雜。
目前處理各種非結(jié)構(gòu)化文檔的軟件已經(jīng)比較普及,形成了多種文檔格式林立的狀況。例如,文檔編輯目前就存在Microsoft的word、WPS、永中的Office、Red的Office等。通常,一個內(nèi)容管理軟件往往要處理二三百種文檔格式,而且這些格式還在不斷更新,給這類軟件的開發(fā)帶來了巨大的困難。如何解決文檔通用性、進行數(shù)字內(nèi)容提取、格式兼容越來越成為人們的關(guān)注點,人們迫切希望解決以下問題:
1)文檔不通用:
基本上,不同用戶只能交換同一種軟件處理的文檔,無法交換不同軟件處理的文檔,形成信息封閉。
2)訪問接口不統(tǒng)一、數(shù)據(jù)兼容代價太高:
不同的文檔處理軟件之間,文件格式互不兼容,在處理過程中要么利用對方組件解析(前提是對方提供相應接口),要么自己投入研發(fā)力量從頭到尾的解析對方的格式。
3)信息安全較差:
目前針對書面文檔的權(quán)限控制手段單一,主要是數(shù)據(jù)加密、口令認證。因為信息泄露,每年造成巨大損失的公司案例層出不窮。
4)都是針對單個文檔的處理,缺乏多文檔管理手段:
每個人電腦中都有大量文檔,但多個文檔之間缺乏有效的組織管理,而且資源共享很難。如,字庫/字體文件、全文數(shù)據(jù)檢索等。
5)頁面分層的技術(shù)不完善:
目前一些軟件,如Adobe的photoshop,Microsoft的word,多多少少已經(jīng)有層的概念,但層的功能還比較單一,管理手段比較簡單,不能滿足應用需求。
6)檢索手段不夠豐富:
隨著信息的海量化,用任何一個關(guān)鍵詞來搜索都會得到數(shù)量龐大的檢索結(jié)果,全文檢索技術(shù)基本解決了查全率的問題,但查準率迅速上升為首要問題。現(xiàn)有技術(shù)還沒有很充分地利用全部信息來解決查準率問題,例如每個文字的字體、字號完全可以用來判斷該文字的重要性,但都在檢索時被忽略了。
雖然各大公司目前都努力將自己特有的文檔格式發(fā)展為市場標準,各標準組織也致力于制訂通用的文檔格式標準。但不管是專有的文檔格式(如.doc)還是開放的文檔格式(如PDF),只要是以文檔格式為標準,就不可避免產(chǎn)生以下問題:
a)重復開發(fā),效果不統(tǒng)一:
使用同一標準的不同軟件都需要自己去解釋、生成該格式的文檔,造成大量重復開發(fā),而且會因為各家解釋程序不同,例如有的完善有的相對簡單,有的支持新版本有的只支持舊版本數(shù)據(jù),同一文檔在不同軟件下顯現(xiàn)出不同的版式,甚至出現(xiàn)解釋錯誤導致無法打開文檔。
b)阻礙創(chuàng)新:
軟件是不斷創(chuàng)新的行業(yè),但由于每增加一個新功能就需要增加描述該功能的信息,而且只有等到標準修訂的時候才能增加新的格式,因此把存儲格式固定死,將會妨礙技術(shù)創(chuàng)新的競爭。
c)影響檢索性能:
對海量信息,需要增加大量的檢索信息以提高檢索性能,但固定死的存儲格式難以增加檢索信息
d)影響可移植性和可伸縮性:
在不同的系統(tǒng)環(huán)境下,不同的應用需求,可能會有不同的存儲要求。例如,存儲在硬盤上就需要考慮如何減少磁頭尋道的次數(shù)以提高性能,而在嵌入式應用中數(shù)據(jù)都相當于存儲在內(nèi)存中的,就不存在這個問題。例如,同一個廠商的數(shù)據(jù)庫軟件在不同平臺上就可能會使用不同的存儲格式。因此,設置文檔存儲標準將會影響系統(tǒng)的可移植性和可伸縮性。
現(xiàn)有技術(shù)中最開放、可交換性最好的文檔是Adobe?Acrobat的PDF。然而,雖然PDF已經(jīng)成為全球文檔分發(fā)、交換的事實標準,但也不能實現(xiàn)在不同的軟件之間交換PDF文檔,也就是說,不能實現(xiàn)PDF文檔的互操作性。而且,無論是Acrobat還是Office,都只能對單文檔進行處理,缺乏對多文檔的管理功能,不具備對文檔庫進行操作的功能。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津書生投資有限公司,未經(jīng)天津書生投資有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210272218.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:精確控制卷取間距裝置
- 下一篇:一種帶檢測反饋裝置的卷膜機構(gòu)





