[發明專利]一種格式化輸出書版小樣文件內容的方法及系統有效
| 申請號: | 200910242834.2 | 申請日: | 2009-12-17 |
| 公開(公告)號: | CN102103574A | 公開(公告)日: | 2011-06-22 |
| 發明(設計)人: | 嚴昌華;繆萍 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/25 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 陳源;羅建民 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 格式化 輸出 小樣 文件 內容 方法 系統 | ||
技術領域
本發明涉及內容輸出技術領域,具體而言,涉及一種格式化輸出書版小樣文件內容的方法及系統。
背景技術
現有技術中,書版小樣文件通常是借助于書版程序的排版引擎,并按照書版小樣中定義的規范而輸出到諸如顯示器、打印機或印刷機等輸出設備。其中,書版小樣文件中包含各類特殊的格式內容,目前能夠將這樣的書版小樣文件內的格式化內容按照原始意義正確呈現的方式,只有通過書版的排版引擎。
然而,隨著技術的進步,對于書版小樣文件內容的其他形式的輸出要求越來越強烈,例如,目前就迫切需要以書籍方式輸出或者以數據庫的形式輸出書版小樣內容。但是,現有技術中還沒有一種行之有效的方法能夠完好地解析書版小樣文件(特別是其所包含的諸如公式、分數式、上/下標、多行圖說內容等的特殊格式信息),因而使得即便得到了書版內容,也因沒有一種合理的處理流程來將得到的內容進行有效組織,而使得不能在后端正確呈現該書版小樣內容。換言之,目前還沒有能夠對書版小樣文件進行良好解析、合理組織并便于在后端正確呈現的方法。
發明內容
為解決上述技術問題,本發明提供了一種格式化輸出書版小樣文件內容的方法及系統,其能夠對書版小樣文件進行良好解析、合理組織,從而可在后端輸出中提供一種結構化的輸出方式,進而完成書版小樣文件內容的格式化輸出效果。
為此,本發明提供了一種格式化輸出書版小樣文件內容的方法,包括下述步驟:1)讀取書版小樣文件內容,并基于所讀取的書版小樣文件內容而構建邏輯樹結構;2)基于邏輯樹結構而構建標簽樹結構;3)基于標簽樹結構和邏輯樹結構而形成后端輸出所需要的格式化文檔,并根據需要輸出所述格式化文檔。
其中,在所述步驟1)中,提取書版小樣文件內容,并按照段落組織構建邏輯樹結構,所述邏輯樹結構包括段落正文內容和與正文內容有關的格式信息。
其中,在所述邏輯樹結構中,每一段落可劃分為若干格式片斷,其中的每一格式片斷包含相應的具體格式信息。
其中,在所述步驟2)中,根據需要輸出的內容,按照匹配規則自動或者手動提取相關信息,以便對邏輯樹結構中的相關信息進行處理而生成有關所述輸出內容的標簽樹結構。
其中,在所述標簽樹結構中,普通文字內容可以直接從邏輯樹結構中獲得,而對于無法按普通文字組織的特殊格式信息,則在提取的文字內容上下文關系中用特殊格式助記符表示,并且每一個特殊助記符對應邏輯樹結構上相應段落內的特殊格式片斷記錄。
其中,在所述步驟3)中,若遇到普通文字內容,則直接輸出該普通文字內容以構成后端輸出所需要的格式化文檔。若遇到由特殊格式助記符標示的內容,則根據該助記符在相應段落的位置到邏輯樹結構中查找相應的特殊格式片斷,并且對后端輸出引擎可以處理的特殊格式片斷,提取和組織具體格式信息,以在后端輸出引擎中按照結構化的內容進行格式化輸出;對后端輸出引擎無法處理的特殊格式片斷,根據特殊格式片斷記錄中所提取的信息構建合法的書版小樣片斷,利用書版的發排引擎將其輸出為圖片文件,以在后端輸出引擎中的相應部位插入該圖片文件。
其中,所述步驟3)具體包括下述步驟:31)在標簽樹結構中讀取格式分塊。32)判斷所讀取的格式分塊是否為普通文字,若是,則直接輸出該文字內容;若否,則轉到步驟33)。33)檢索邏輯樹結構,以找到該格式分塊所對應的位置。34)判斷相應位置的格式片斷是否可以解析,若是,則轉到步驟35;若否,則轉到步驟36)。35)判斷所述格式片斷中的格式信息是否為特定格式信息,若是,則以該特定格式輸出相應內容;若否,則輸出占位符。36)將所述格式片斷作為書版小樣片斷提取出來,并將所提取的書版小樣片斷生成圖片。37)輸出步驟36)中所生成的圖片。重復上述步驟31)至步驟37),直至標簽樹結構中的全部內容輸出完畢。
其中,所述特殊格式信息包括但不限于數學公式和/或分數式和/或上下標和/或補字處理格式信息和/或多行圖說內容格式信息。
此外,本發明提供一種格式化輸出書版小樣文件內容的系統,包括下述單元:書版小樣讀取單元,用于讀取書版小樣文件內容;邏輯樹結構構建單元,用于基于所讀取的書版小樣文件內容而構建邏輯樹結構;標簽樹結構構建單元,用于基于邏輯樹結構而構建標簽樹結構;以及格式化及輸出單元,用于基于標簽樹結構和邏輯樹結構而形成后端輸出所需要的格式化文檔,并根據需要輸出所述格式化文檔。
其中,在所述邏輯樹結構中,每一段落可劃分為若干格式片斷,其中的每一格式片斷包含相應的具體格式信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910242834.2/2.html,轉載請聲明來源鉆瓜專利網。





