[發明專利]段落類型識別方法及系統和文檔結構識別方法及系統在審
| 申請號: | 202110022142.8 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699637A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 鄧吉秋;夏晨晨;劉文毅;雷玉嬌;何美香;路馥毓 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F40/12 | 分類號: | G06F40/12 |
| 代理公司: | 長沙智路知識產權代理事務所(普通合伙) 43244 | 代理人: | 張毅 |
| 地址: | 410000 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 段落 類型 識別 方法 系統 文檔 結構 | ||
1.一種段落類型識別方法,其特征在于,包括:
S1、根據預先設定的段落類型識別規則,判斷文本中任一段落是否符合段落類型識別規則,獲取判斷結果;
所述文本包括:Markdown格式的地質文本、MID格式的地質文本以及MIF格式的地質文本中的至少一種格式的地質文本;
所述段落類型識別規則包括:
第一級規則為規定段落類型識別規則判斷先后順序的優先級規則;
第二級規則為段落識別關聯準則;
S2、根據所述判斷結果和預先設定段落類型識別準則及第一編號確定所述段落的段落類型;
所述第一編號與所述段落類型識別準則對應。
2.根據權利要求1所述的方法,其特征在于,所述S1包括:
按照段落類型識別規則所對應的優先級順序逐級對文本每一段落進行判斷,獲取所述段落的判斷結果。
3.根據權利要求2所述的方法,其特征在于,所述步驟S2包括:
若所述段落的判斷結果為符合相應段落類型識別規則,則將與所述段落類型識別準則對應的第一編號作為所述段落的段落類型。
4.根據權利要求3所述的方法,其特征在于,
所述優先級包括:預先設定的第一級的段落類型識別規則、預先設定的第二級的段落類型識別規則、預先設定的第三級的段落類型識別規則、預先設定的第四級的段落類型識別規則、預先設定的第五級的段落類型識別規則、預先設定的第六級的段落類型識別規則;
所述優先級的判斷順序依次為:預先設定的第一級的段落類型識別規則、預先設定的第二級的段落類型識別規則、預先設定的第三級的段落類型識別規則、預先設定的第四級的段落類型識別規則、預先設定的第五級的段落類型識別規則、預先設定的第六級的段落類型識別規則。
5.根據權利要求4所述的方法,其特征在于,
所述段落識別關聯規則包括:多條件準則、正則表達式、段落類型、起止段落準則、結構準則、無格式準則、方法準則中的一種或多種準則;
所述多條件準則包括:
和規則:表示段落需要同時滿足和規則兩側的正則表達式或其他規則表達式;
或規則:表示段落只需滿足或規則兩側的一個正則表達式或其他規則表達式;
非規則:表示段落不滿足非規則右側的正則表達式或其他規則表達式;
所述正則表達式為:描述段落特征;
段落類型為:第一編號;
起止段落準則包括:
具有第一編號的在段落之前規則,表示段落在第一編號所對應的段落類型的段落之前;
具有第一編號的非段落規則,表示段落的段落類型不是第一編號所對應的段落類型;
具有第一編號的在段落之后規則,表示段落在第一編號所對應的段落類型的段落之后;
具有正則表達式的在段落之前規則,表示段落在滿足所述正則表達式的段落之前;
具有正則表達式的在段落之后規則,表示段落在滿足所述正則表達式的段落之后;
結構準則:表示段落的段落類型滿足結構準則右側的第一編號所對應的段落類型;
無格式準則:除符合多條件準則或起止段落準則或結構準則或方法準則的段落之外的段落;
方法準則包括:預先設定的標題段落的標簽標記準則;預先設定的目錄段落的標簽標記準則。
6.根據權利要求5所述的方法,其特征在于,所述
所述第一編號還分別與預先設定的段落識別準則描述信息、段落識別準則優先級、段落識別規則對應。
7.一種段落類型識別系統,其特征在于,包括:
至少一個第一處理器;以及
與所述第一處理器通信連接的至少一個存儲器,其中,所述存儲器存儲有可被所述第一處理器執行的程序指令,所述第一處理器調用所述程序指令能夠執行如權利要求1至6任一所述的一種段落類型識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110022142.8/1.html,轉載請聲明來源鉆瓜專利網。





