[發明專利]預案文本抽取方法、裝置以及存儲介質在審
| 申請號: | 202310172037.1 | 申請日: | 2023-02-21 |
| 公開(公告)號: | CN116340532A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 徐大用;岳清瑞;朱國峰;蔣會春;沈贛蘇;習樹峰 | 申請(專利權)人: | 深圳市城市公共安全技術研究院有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/205;G06F40/279 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 許青華 |
| 地址: | 518000 廣東省深圳市羅湖區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預案 文本 抽取 方法 裝置 以及 存儲 介質 | ||
1.一種預案文本抽取方法,其特征在于,所述預案文本抽取方法包括:
響應于獲取預案文檔,根據所述預案文檔解析得到預案數據;
根據所述預案數據定位文本塊內容;
根據所述文本塊內容抽取實體和實體關系,根據所述實體和所述實體關系進行關系搭建;
其中,所述根據所述預案數據定位文本塊內容的步驟包括:
獲取所述預案數據的章節目錄和正文內容,根據所述章節目錄和正文內容定位得到組織機構及職責章節,和/或根據所述章節目錄定位得到組織機構的情景指令章節。
2.如權利要求1所述的預案文本抽取方法,其特征在于,所述根據所述章節目錄和正文內容定位得到組織機構及職責章節的步驟包括:
獲取每級章節目錄的章節標題,根據所述章節標題和命名實體識別模型識別得到章節標題的組織機構實體,其中,所述命名實體識別模型基于所述正文內容訓練得到;
根據所述組織機構實體對所述章節標題進行分類標簽轉化,得到章節標題的標簽轉化結果;
根據所述章節標題的標簽轉化結果和UIE分類模型進行章節定位,得到所述組織機構及職責章節。
3.如權利要求1所述的預案文本抽取方法,其特征在于,所述根據所述章節目錄定位得到組織機構的情景指令章節的步驟包括:
獲取每級章節目錄的章節標題,根據所述章節標題進行語料標注,得到標注后的章節目錄;
根據所述標注后的章節目錄和標題層級信息處理得到包含層級信息的章節標題;
根據所述包含層級信息的章節標題和TextCNN分類模型進行章節定位,得到所述組織機構的情景指令章節。
4.如權利要求1、2或3中任一項所述的預案文本抽取方法,其特征在于,所述根據所述文本塊內容抽取實體和實體關系的步驟包括:
獲取所述組織機構及職責章節,根據所述組織機構及職責章節抽取得到章節內容的組織機構及職責實體和實體關系;
獲取所述組織機構的情景指令章節,根據所述組織機構的情景指令章節抽取得到章節內容的組織機構的情景指令實體和實體關系。
5.如權利要求4所述的預案文本抽取方法,其特征在于,所述根據所述實體和所述實體關系進行關系搭建的步驟包括:
獲取所述組織機構及職責實體和實體關系,通過基于主語先行的PL-Maker模型對所述組織機構及職責實體和實體關系進行組織機構及職責的關系搭建,其中,所述基于主語先行的PL-Maker模型為根據預案文本的特點將業務知識輸入到算法模型中進行訓練而得到;
獲取所述組織機構的情景指令實體和實體關系,通過所述基于主語先行的PL-Maker模型對所述組織機構的情景指令實體和實體關系進行組織機構的情景指令的關系搭建。
6.如權利要求1所述的預案文本抽取方法,其特征在于,所述根據所述預案文檔解析得到預案數據的步驟包括:
獲取有水印的PDF文檔,將所述有水印的PDF文檔去除水印得到去水印的PDF文檔;
將所述去水印的PDF文檔進行文檔內容修復并轉換成docx文檔;
根據所述docx文檔進行數據結構化,得到結構化的預案數據。
7.如權利要求6所述的預案文本抽取方法,其特征在于,所述根據所述docx文檔進行數據結構化的步驟包括:
根據文檔中的目錄序號進行層次結構的識別,得到目錄層級信息;
根據章節標題、附件標題和/或有序正文標注得到章節層次信息;
根據所述目錄層級信息和所述章節層級信息進行匹配,并構建正文中的標題的父子層級關系;
根據所述正文中的標題的相對位置恢復得到標題及正文文本塊之間的隸屬層級關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市城市公共安全技術研究院有限公司,未經深圳市城市公共安全技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310172037.1/1.html,轉載請聲明來源鉆瓜專利網。





