[發明專利]提取文檔中內容的方法和裝置在審
| 申請號: | 201110259119.7 | 申請日: | 2011-09-02 |
| 公開(公告)號: | CN102982027A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 宋娟;李少明;翟因為 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 文檔 內容 方法 裝置 | ||
技術領域
本發明涉及數字排版領域,具體而言,涉及一種提取文檔中內容的方法和裝置。
背景技術
在教育體系中,隨著計算機、互聯網的發展,越來越多的教育形式通過網絡和電子形式應用到用戶,用戶可以足不出戶,就可體驗到網絡的教學,如學習各類課程、在線測試等。
互聯網的教育體系,為滿足大量用戶通過計算機連接互聯網,并可進行在線測試。需要制作電子試題庫,電子試題庫內存儲大量的電子試題,這些電子試題文檔錄入以后,用戶可通過互聯網進行在線測試,但一套試題經過使用后,就不在有保密性,需要修改試題。試題的修改都是在部分修改,以提高試題的重復利用及制作的效率。
試題文檔通常存儲在數據庫中,對于當前海量的非結構化試題,現有的錄入過程,是通過用戶使用計算機錄入試題。
發明人發現,試題的數據量比較多,由于非結構化的試題文件只能采用人工錄入的方式錄入,由于存在無法將數據文檔實現結構化錄入的問題,導致在錄入過程、以及后續的提取、修改試題的部分內容困難,用戶存在錄入時間長、后期修改過程復雜。
發明內容
本發明旨在提供一種提取文檔中內容的方法和裝置,以解決無法將數據文檔實現結構化錄入的問題。
在本發明的實施例中,提供了一種提取文檔中內容的方法。包括:遍歷多個正則表達式以匹配試題文檔中的字符;匹配到與當前所述正則表達式中的字符串相同的字符后,提取所述字符之后至與下一個所述正則表達式中字符串相匹配的字符之前的字符;存儲所述提取的字符和所述當前正則表達式相對應類別的信息。
進一步地,所述提取之前,還包括:建立匹配表,所述匹配表中存儲有所述各個正則表達式及其相對應類別的信息。
進一步地,所述類別的信息包括以下至少一個:題目、題干、答案、解析或選項。
進一步地,所述存儲之前包括:在所述類別的信息之間建立從屬關系。
進一步地,所述存儲的過程包括:將所述題目作為父節點存儲,同時存儲對應的標識、及提取的字符;將所述題干、答案、選項、解析中的至少一個作為子節點,并存儲所述子節點對應的標識、其對應提取的字符、及其父節點標識。
進一步地,所述父節點、相關聯的子節點、及其對應標識和提取的字符作為一條記錄,所述記錄存儲到數據庫中。
進一步地,還包括:在所述存儲過程中,將音頻、視頻或圖片作為主節點的屬性數據一同存儲。
在本發明的實施例中,還提供了一種提取文檔中內容的裝置,包括:匹配單元,用于遍歷多個正則表達式以匹配試題文檔中的字符;提取單元,用于匹配到與當前所述正則表達式中的字符串相同的字符后,提取所述字符之后至與下一個所述正則表達式中字符串相匹配的字符之前的字符;存儲單元,用于存儲所述提取的字符和所述當前正則表達式相對應類別的信息。
進一步地,節點關系單元,用于通過存儲單元將所述題目作為父節點存儲,同時存儲對應的標識、及提取的字符;將所述題干、答案、選項、解析中的至少一個作為子節點,并存儲所述子節點對應的標識、其對應提取的字符、及其父節點標識。
進一步地,屬性單元,用于在所述存儲過程中,將音頻、視頻或圖片作為主節點的屬性數據一同存儲。
從以上的描述中可以看出,本發明上述的實施例實現了如下技術效果:可快速將試題類文檔結構化,并提取各部分內容存入數據庫中。從而便于試題類文檔的后續的修改、試題產品的制作等。提高了試題的再利用率,結構化的數據采用XML格式,對題干、選項、答案線、答案、解析等進行詳細劃分,這樣對這些試題提取或者組卷的時候可以任意的組合、修改、樣式套用。在不改變原有文件內容的情況下,打破了以往按照固定結構進行數據錄入的模式。另外,可以隨時選擇試題進行多渠道的發布。比如試卷打印,教材出版,網頁展示,手機閱讀等。不論紙面出版還是各種電子設備和瀏覽器需要的數據格式都是不同的。發布的內容也可有多種形式,可滿足考生和教師的試卷不完全相同的,教師的試卷中帶有試題的答案和解析。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
圖1示出了實施例一的流程圖;
圖2示出了實施例二的流程圖;
圖3示出了實施例二中存儲過程的流程圖;
圖4示出了實施例三的裝置結構框圖。
具體實施方式
下面將參考附圖并結合實施例,來詳細說明本發明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110259119.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:空氣閥密封塞
- 下一篇:用于控制燃氣渦輪機系統中的燃燒不穩定性的系統和方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





