[發明專利]段落類型識別方法及系統和文檔結構識別方法及系統在審
| 申請號: | 202110022142.8 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699637A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 鄧吉秋;夏晨晨;劉文毅;雷玉嬌;何美香;路馥毓 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F40/12 | 分類號: | G06F40/12 |
| 代理公司: | 長沙智路知識產權代理事務所(普通合伙) 43244 | 代理人: | 張毅 |
| 地址: | 410000 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 段落 類型 識別 方法 系統 文檔 結構 | ||
本發明涉及段落類型識別方法及系統和文檔結構識別方法及系統,其中,段落類型識別方法,包括:S1、根據預先設定的段落類型識別規則,判斷文本中任一段落是否符合段落類型識別規則,獲取判斷結果;所述段落類型識別規則包括:第一級規則為規定段落類型識別規則判斷先后順序的優先級規則;第二級規則為段落識別關聯準則;S2、根據所述判斷結果和預先設定段落類型識別準則及第一編號確定所述段落的段落類型;所述第一編號與所述段落類型識別準則對應。解決了現有的地質資料段落類型識別方法中語料標注成本過高、語料庫稀缺的問題。
技術領域
本發明涉及文本化地質資料識別技術領域,尤其涉及一種段落類型識別方法及系統和文檔結構識別方法及系統。
背景技術
文本化地質資料是指數字化地質資料經過文本化處理后的以Markdown、MID/MIF格式存在的地質資料。隨著地質文檔資源的快速增長,地質領域研究人員迫切的需要從海量的地質文檔中進行快速精確的知識檢索、組織和分類的操作。同樣的詞匯在地質文檔中不同位置出現,具有不同程度的語義上的重要性,因此識別地質資料的段落類型和文檔結構,變得十分重要。
現有技術:基于文檔章節標題,提前設計文檔結構處理模板,用戶根據實際需求調用對應文檔結構模板,采用人機交互的生成文檔邏輯結構大綱。固定文檔結構模板,通過語義分析、信息抽取將文檔結構對應內容抓取整合到文檔結構對應位置,從而生成最終文檔結構。基于文檔章節、段落、圖表等信息,采用機器學習的方法,對段落類型與文檔結構進行識別。
現有技術的缺點:針對文檔資料段落類型與文檔結構的識別,現有技術采用固定文檔結構模板、規范文檔結構處理模板人機交互處理或機器學習的方法。人機交互與純人工處理的方法,速度慢、效率低、無法避免認為疏忽帶來的判斷錯誤;固定文檔結構模板,其綱目結構、段落內容、文檔格式大多固定、靈活度不夠,無法處理具有特殊格式的文檔。
由于地質資料格式復雜、標注困難,過去積累的成果較少,機器學習方法用于地質資料段落類型與文檔結構識別應用面臨語料標注成本過高、語料庫稀缺的問題;對文本化地質資料的段落類型與文檔結構識別研究未有涉及。
發明內容
(一)要解決的技術問題
鑒于現有技術的上述缺點、不足,本發明提供一種段落類型識別方法及系統和文檔結構識別方法及系統。解決了現有的地質資料段落類型與文檔結構識別方法中語料標注成本過高、語料庫稀缺的問題以及現有的文檔結構識別中由于固定文檔結構模板,其綱目結構、段落內容、文檔格式大多固定、靈活度不夠的問題。
(二)技術方案
為了達到上述目的,本發明采用的主要技術方案包括:
第一方面,本發明實施例提供一種段落類型識別方法,包括:
S1、根據預先設定的段落類型識別規則,判斷文本中任一段落是否符合段落類型識別規則,獲取判斷結果;
所述文本包括:Markdown格式的地質文本、MID格式的地質文本以及MIF格式的地質文本中的至少一種格式的地質文本;
所述段落類型識別規則包括:
第一級規則為規定段落類型識別規則判斷先后順序的優先級規則;
第二級規則為段落識別關聯準則;
S2、根據所述判斷結果和預先設定段落類型識別準則及第一編號確定所述段落的段落類型;
所述第一編號與所述段落類型識別準則對應。
優選的,所述S1包括:
按照段落類型識別規則所對應的優先級順序逐級對文本每一段落進行判斷,獲取所述段落的判斷結果。
優選的,所述步驟S2包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110022142.8/2.html,轉載請聲明來源鉆瓜專利網。





