[發明專利]一種通用文檔結構信息抽取方法有效
| 申請號: | 201310272418.3 | 申請日: | 2013-07-01 |
| 公開(公告)號: | CN103399857B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 李新然;呂江花;馬世龍 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京永創新實專利事務所11121 | 代理人: | 祗志潔 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通用 文檔 結構 信息 抽取 方法 | ||
技術領域
本發明屬于文檔一體化工程領域,涉及一種通用文檔信息格式定義、一組文檔信息格式間轉換和操作過程的實現方法、以及一種通用的文檔同構信息描述的定義;具體涉及一種通用文檔結構信息抽取方法。
背景技術
隨著相關技術的發展,文檔資源在工程實際中的地位變得越來越突出。新世紀提出的文檔工程的概念,更是將文檔資源的地位提到工程實際的中心位置。文檔資源是一種知識積累,是工程實際中經驗的結晶,充分利用現有的文檔資源可以減少在當前工程實際中所犯的錯誤,為當前的工程問題解決提供參考,從而加快工程開發進度。但是,由于文檔原始資源內容龐雜且缺乏統一規范,信息格式不統一,缺乏互操作性,不易為計算機統一操作和理解,更不易為人所理解和查詢,導致當前大量的工程文檔資源被擱置而不能服務于工程實際,造成極大的資源浪費。
文檔一體化管理是指由同一文檔管理機構從文件和檔案工作的全局出發,統籌規劃,科學管理,實現文件管理部門由文件形成、收發、登記、編號、存儲、檢索、利用到檔案部門的收集、整理、鑒定、著錄、保管、統計、利用等管理的全過程控制。此種工作模式有利于改善和保證文件、檔案質量,提高文件和檔案管理工作的規范化和標準化,從而實現文件和檔案管理工作的現代化。
文檔結構是文檔內容的凝練,是整篇文檔的框架。結構化的信息呈現可以方便用戶的閱讀和理解,充分利用文檔的結構信息也可以實現快速的文檔定位方便用戶的查閱;在對文檔資源進行修改時并不是同時對所有的文檔信息進行修改,通常每個工作人員只負責修改部分的文檔信息,充分利用文檔結構信息,可以方便地實現文檔資源的協同編輯修改;文檔資源體積通常很大,通過網絡傳遞完整的文檔信息通常需要占用很大的網絡帶寬,且十分耗時,而利用文檔結構信息,通過傳遞部分結構化的文檔信息可以有效節省帶寬,提高效率;工程中的文檔通常有嚴格的文檔結構要求,嚴格的文檔結構也可以方便文檔資源的編制,提高工作效率,且方便一體化管理;利用文檔結構信息,結合文檔內容信息可以指定靈活的規則,方便對文檔的評價和審核。
為了針對文檔資源進行抽取同構,進而加以利用,人們開展了諸多的研究:文本自動分類,信息檢索,文本內容過濾等。有研究者提出了開放式文檔同構引擎(Open?Document?Isomorphic?Engine,ODIE),就是從多種多樣的文檔格式中獲取文本內容及其所代表的語義,并提供給其它高層系統使用,基于此提出了開放式文檔層次模型的概念,并介紹了獲取文檔資源中文本信息的關鍵技術和方法。多格式文檔的同構化可以使其他應用系統擺脫文檔分析的難點,只專注于系統本身的業務操作。文檔同構化同時也是基于內容的信息安全、自動分類、自動標引、自動檢索等領域的基礎性工作。然而這些研究工作的研究對象僅僅鎖定在文本內容及其所代表的語義上,忽略了原始文檔結構信息及圖表信息,另外由于其架構太過通用,實際應用中又沒有給出一種面向特定領域的可操作的文檔抽取同構的技術與方法,使其注定無法滿足工程實際的需求。
綜上所述,現有的文檔一體化研究領域存在多種局限:1)在文檔信息抽取中,只關注文本信息的抽取,忽視文檔結構信息,這樣抽取出的純文本方便文本檢索分類等上層應用的同時,由于缺失重要的結構信息,無法滿足特定工程領域的需求;2)在文檔信息抽取中,忽略文檔中重要的圖片圖表信息,在方便通用文檔同構格式定義的同時,損失了原有文檔資源的信息,沒有做到對原始文檔資源的充分利用;3)在定義開放式文檔同構結構時,提出了開放式文檔層次模型的概念,介紹了獲取多種格式文本信息的關鍵技術和方法,但沒有給出一種面向特定領域的同構文檔格式及其定義方法,沒有提出一種建立針對特定領域的開放式文檔同構的實際可操作的流程和方法;4)開放式文檔同構主要研究文本信息抽取處理及其語義的理解,沒有建立通用的文檔信息描述方法,不能為人所理解和操作,不能滿足工程實際的需求;5)概念和操作方法復雜,易用性差,不便于在工程實際中普及;6)抽取方法通用性差,無法保障可移植性。
發明內容
本發明的目的在于針對特定領域給出一種通用文檔結構信息抽取方法,基于文檔抽取的概念,可以抽取重要的文檔結構信息,同時保持文檔中的圖片和圖表信息,抽取方法簡單易用,通用性強。通過本發明方法可以建立特定領域的文檔同構信息模型,實現文檔信息的同構互操作,方便文檔一體化管理。
本發明給出的一種通用文檔結構信息抽取方法,主要包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310272418.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于導體表面覆油的刷槽
- 下一篇:一維氣爆數控噴頭
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





