[發明專利]一種文檔內容結構化的方法及裝置有效
| 申請號: | 201210560708.3 | 申請日: | 2012-12-20 |
| 公開(公告)號: | CN103885972A | 公開(公告)日: | 2014-06-25 |
| 發明(設計)人: | 孫明明 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 內容 結構 方法 裝置 | ||
技術領域
本發明涉及印刷領域,尤其涉及一種文檔內容結構化的方法及裝置。
背景技術
出版社收到大量來稿,需要將大量的來稿制作成圖書或者期刊等印制品時,需要投入大量的精力來整理來稿內容結構,對于文檔中不連續的內容,例如,試題和答案的分離時,試卷中的答案部分為相對于該試卷的不連續內容,概況內容與具體內容的分離時,具體內容為相對于整個內容文檔扥不連續內容,在對這些文檔內容整理時,需要將這些分離的答案對應試題的結構化,以及具體信息對應于具體信息的結構化,其中,這些需要結構化的部分有很相似之處,也具有一定的規律性。
現有技術中針對文檔中的不連續內容的結構化,只能采用人工結構化的方式。
但本申請發明人在實現本申請實施例中發明技術方案的過程中,發現上述技術至少存在如下技術問題:
由于文檔中的不連續內容有很多相似之處,而人工結構化需要對不連續內容結構化時會進行很多重復性的勞動,存在結構化效率低,錯誤率高,以及結構化率低的技術問題。
發明內容
本申請實施例通過提供一種文檔內容結構化的方法及裝置,用于解決現有技術中存在結構化效率低,錯誤率高的技術問題。
一方面,本申請實施例提供了一種文檔內容結構化的方法,所述方法包括:基于第一文檔中樣式為預設樣式的第一schema文件以及一規則為第一結構化規則的第一XML文件,生成與所述第一文檔對應的第一實例化規則;
基于所述第一文檔中的已結構化的第一內容的第一標簽結構樹,獲得與所述第一內容對應的第一標簽列表;
從與所述第一標簽列表對應的不連續內容中獲得與所述第一實例化規則匹配的M個文本,其中,所述不連續內容為不包含在所述已結構化的第一內容中的未結構化內容,M為大于等于1的正整數;
判斷獲得所述M個文本對應的M個標簽中可以與所述已結構化的第一內容匹配的N個標簽;
基于所述N個標簽,將所述N個標簽對應的N個文本結構化,獲得第二標簽結構樹。
優選地,所述基于第一文檔中樣式為預設樣式的第一schema文件以及一規則為第一結構化規則的第一XML文件,生成與所述第一文檔對應的第一實例化規則,具體包括:
獲取所述樣式為預設樣式的第一schema文件以及所述一規則為第一結構化規則的第一XML文件;
基于所述樣式為預設樣式的第一schema文件以及所述一規則為第一結構化規則的第一XML文件,從與所述第一標簽列表對應的不連續內容中獲得與所述第一結構化規則匹配的所述M個文本,以及從所述第一內容中獲得與所述M個文本對應的多個匹配節點,其中,所述匹配節點的個數大于M個;
從所述第一內容中獲得與所述M個文本對應的至少一個不匹配節點,以生成第二結構化規則;
基于所述多個匹配節點及所述第二結構化規則,組成所述第一實例化規則。
優選地,所述第一結構化規則,具體為:格式匹配方式規則;和/或
樣式匹配方式規則;和/或
大綱級別匹配方式規則;和/或
自定義通配符匹配方式規則。
優選地,所述從與所述第一標簽列表對應的不連續內容中獲得與所述第一實例化規則匹配的M個文本,具體包括:
遍歷所述第一標簽列表;
基于第一標簽列表,在所述不連續內容中定位到與所述第一實例化規則匹配的M個文本。
優選地,所述基于第一標簽列表,在所述不連續內容中定位到與所述第一實例化規則匹配的M個文本之后,所述方法還包括:
將與所述第一實例化規則匹配的所述M個文本存入堆棧中;
將所述第一實例化規則匹配的所述M個文本的樣式設置為所述第一內容中的節點的樣式。
優選地,所述基于所述N個標簽,將所述N個標簽對應的N個文本結構化,具體包括:
獲得所述N個文本中滿足一預設規律的K個文本,基于與所述K個文本對應的K個標簽,將所述K個文本自動結構化;
在檢測到用戶的輔助操作時,響應所述輔助操作,選擇不滿足所述預設規律的(N-K)個文本對應的第一標簽列表中的(N-K)個父標簽,以對所述(N-K)個文本輔助結構化。
優選地,所述獲得所述N個文本中滿足一預設規律的K個文本,基于與所述K個文本對應的K個標簽,將所述K個文本自動結構化,具體包括:
將所述K個標簽及與所述K個標簽對應匹配成功的K個所述節點添加到所述第一標簽列表;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210560708.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙向循環活塞式氣動加油機
- 下一篇:模塊的制造方法及模塊
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





