[發明專利]一種基于規則與預訓練語言模型的文書自動分析方法在審
| 申請號: | 202211101975.4 | 申請日: | 2022-09-09 |
| 公開(公告)號: | CN115470776A | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 閻星娥;楊昆;張林;劉慰慰;嚴榮明;袁勇斌;薛世峰 | 申請(專利權)人: | 南京華飛數據技術有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/242;G06F40/279;G06F16/33;G06Q50/18 |
| 代理公司: | 南京品智知識產權代理事務所(普通合伙) 32310 | 代理人: | 奚曉寧 |
| 地址: | 210019 江蘇省南京市建鄴*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 規則 訓練 語言 模型 文書 自動 分析 方法 | ||
本發明屬于自然語言處理領域,涉及文本內容挖掘技術包括實體抽取技術、關系抽取技術與事件抽取技術,是一種基于規則與預訓練語言表征模型的文書自動分析方法。包括S1、讀取文書存儲數據庫獲得文書標題和文書正文;S2、針對文書標題進行分析,得到事由、事件類型等事件相關信息;S3、針對文書正文進行分析,得到涉事人員及身份、事件事實、辦理依據、辦理結果、辦理人員等事件相關信息;S4、針對事件事實進行分析,得到事件時空軌跡信息;S5、針對文書正文進行分析,抽取出文書中人物關系信息;S6、將抽取到的信息存入文書分析結果數據庫。本發明通過結合規則與預訓練語言表征模型,突破了數據集的限制,使該方法應用場景更為廣泛。
技術領域
本發明一種基于規則與預訓練語言模型的文書自動分析方法屬于自然語言處理領域,涉及文本內容挖掘技術,包括實體抽取技術、關系抽取技術與事件抽取技術,是一種基于規則與預訓練語言表征模型的文書自動分析方法。
背景技術
在機構信息化系統中,以文書為典型代表的海量文本中蘊含著大量豐富的可用信息,這些信息作為機構活動分析、機構決策預測等上層應用的基礎數據,具有極其重要的價值。對于海量文書而言,使用人工力量從大量文本中準確找到相關的專業知識和事件信息費時費力。因此,開發一種文書分析方法,自動地從現有的半結構化文書中提取人們關心的信息,并將其存儲在數據庫中,從而方便用戶搜索并快速獲得所需信息,是機構信息化的重要研究方向,具有重要的現實意義。
當前在傳統方法中,基于規則的信息抽取方法主要利用文本的行文特點,從待抽取文本中分析出句法模式或行文規律,從而得到信息抽取的規則。該方法簡單易用,抽取精度高,然而當文本內容的格式規律發生變化時,抽取精度通常會降低,并且該方法難以識別出文本中的實體關系。基于統計的信息抽取方法主要利用大量已標注的數據進行機器學習訓練,之后利用訓練獲得的模型在新的文本上進行信息抽取。該方法準確率較高,但訓練復雜,并且對標注數據的數量和質量提出了較高要求。
發明內容
本發明的目的是針對上述不足之處提供一種基于規則與預訓練語言表征模型的文書自動分析方法,采用規則與預訓練模型協同的方法,融合文書中顯式的實體信息、事件信息與隱式的實體關系信息,抽取出更為完整的事件相關信息,并以此實現文書的自動化分析,從而解決實體關系抽取效果差、模型對標注數據要求高的問題。
本發明是采取以下技術方案實現的:
基于規則與預訓練語言表征模型的文書自動分析方法,包括如下步驟:
S1、采用讀取文書存儲數據庫的方式獲得待分析文書的文書標題和文書正文;
S2、針對步驟S1得到的文書標題展開分析,抽取出事由、事件類型、辦理程序、文書類型的相關信息;
S3、針對步驟S1得到的文書正文展開分析,抽取出辦理單位、事件號、涉事人員及身份、申辦時間、申辦文書號、事件事實、辦理依據、辦理結果、辦理日期、辦理人員等相關信息;
S4、針對步驟S3得到的事件事實展開分析,抽取出事件演化的時空軌跡信息;
S5、基于預訓練語言表征模型對文書正文展開分析,抽取出文書中的人物關系信息;
S6、將以上抽取得到的信息存入文書分析結果數據庫。
步驟S2的具體分析過程,包括如下步驟:
S2-1、通過查詢相關資料,構建文書的事由字典;基于事由字典對文書標題進行匹配,進一步得到待分析文書的事由信息;
S2-2、通過分別構建匹配規則,得到待分析文書的事件類型、辦理程序、文書類型的相關信息。
步驟S3的具體分析過程,包括如下步驟:
S3-1、通過分別構建匹配規則,得到待分析文書的辦理單位、事件號、申辦時間、申辦文書號、辦理日期的相關信息;
S3-2、構建文書的事件手段字典及事件結果字典,通過字典對文書正文進行匹配,進一步得到待分析文書的事件手段信息與事件結果信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京華飛數據技術有限公司,未經南京華飛數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211101975.4/2.html,轉載請聲明來源鉆瓜專利網。





