[發明專利]一種智能行政執法案例信息抽取和案由認定方法在審
| 申請號: | 202210171624.4 | 申請日: | 2022-02-24 |
| 公開(公告)號: | CN114547230A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 賁晛燁;馮曉煒;李玉軍;周瑩;孫浩;謝霆軒 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F16/34;G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 濟南金迪知識產權代理有限公司 37219 | 代理人: | 楊樹云 |
| 地址: | 250199 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 行政 執法 案例 信息 抽取 案由 認定 方法 | ||
本發明涉及一種智能行政執法案例信息抽取和案由認定方法,包括:A、數據集的構建;B、語料轉換:C、抽取數據預處理及向量化:D、基于DGCNN的抽取模型的訓練:E、基于UniLM的短文本生成,訓練生成模型;F、輸入執法文書文本進行預測:將需要轉化的行政執法文書通過步驟A至步驟C處理后,將得到的處理結果輸入訓練后的抽取模型,生成抽取結果并保存,抽取結果進一步輸入訓練后的生成模型,得到適合下游其他任務分析的短文本。本發明通過采用DGCNN作為抽取模型,利用其非序列化的神經網絡結構特點進行文本數據的信息抽取,大大減少了所耗費的時間資源和計算資源,提升了抽取的準確性。
技術領域
本發明涉及一種智能行政執法案例信息抽取和案由認定方法,屬于法律人工智能的技術領域。
背景技術
隨著我國的法律制度不斷發展,法律文書越來越完善,對法律文書的格式、內容都做出了比較細致的規定,而且法律文書的理論研究工作也有了很大的發展,因此,法律文書更加規范和完備。隨著信息科技的不斷進步,網絡上有著大量的行政執法文書資源。而行政執法文書作為承載法律判決與信息的重要載體,其中蘊涵了大量的可用信息。如果能正確的提取并使用這些信息,會節省下大量的人力資源并給新的執法判決提供可靠的幫助。
同時,隨著深度學習的不斷發展,統計學習與深度學習結合的信息抽取模型得到了廣泛的關注。通常,早期的信息抽取將實體抽取和關系抽取看作串聯的任務,這樣的串聯模型在建模上相對更簡單,但這樣將實體識別和關系抽取當作兩個獨立的任務明顯會存在一系列的問題:兩個任務的解決過程中沒有考慮到兩個子任務之間的相關性,從而導致關系抽取任務的結果嚴重依賴于實體抽取的結果,導致誤差累積的問題。對于一對多的問題,也就是關系重疊問題,串聯模型無法提供較好的解決方案。因此,近年來有許多工作都考慮將實體識別與關系抽取任務進行聯合建模,這種end-to-end的模型直覺上會有更優的效果。
為了加強兩個子模型之間的交互,一些聯合解碼算法被提出:2014年Li Qi等提出了將實體關系抽取看為一個結構化預測問題,采用結構化感知機算法,設計了全局特征,并使用集束搜索進行近似聯合解碼。2016年Arzoo Katiyar等提出了利用條件隨機場(CRF)同時建模實體和關系模型,并通過維特比解碼算法得到實體和關系的輸出結果。2017年ZhangMeishan等提出了使用全局歸一化(Global Normalization)解碼算法。2017年自動化所的Zheng Suncong等針對實體關系抽取設計了一套轉移系統(Transition System),從而實現聯合實體關系抽取。但是,上述統一實體和關系標注框架不能完全解決關系重疊等問題,所以在特定場景下,需要引入一些后處理規則進行約束。且由于上述的大部分算法使用的是序列模型導致訓練時間較慢。
目前,在對行政執法文書進行文本分析時,往往受限于數據的非結構化特征,信息容量大,內容表示復雜,信息字段表示多樣化,這些問題都對行政執法文書的信息抽取和結構化提出了更高要求。針對行政執法文書的信息抽取,2018年南京大學的葛季棟等提出了分段特征規則模型,將文書作為邏輯段處理并針對設計規則。2019年戴廣宇等提出了重點詞集合與關鍵詞集合匹配的法律文書信息抽取模型,提高用戶從法律文書中獲取信息的效率。2020年席麗娜等提出了針對目標區塊構建基于規則的要素樹方法,可以自動化抽取行政執法文書中的基本要素。2020年白雄文等提出一種基于自注意力機制的序列到序列神經網絡的法律裁判文信息抽取方法,可以提高法律要素的提取效率與準確度。2020年李丹等提出了基于規則和模型結合的法律文書信息抽取方法,將規則與模型的方法有效結合、形成互補,提高法律文書信息提取效果,同時提高了可拓展性和移植性。此類方法都是基于規則的方法,其簡單便捷,準確率也可以達到要求。但是,往往在面臨數據變動時需要更改和增加新的正則語句,即通用性較差。而且不同地區的行政執法文書的內容格式會有差別,導致基于正則化的方法限制性較高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210171624.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能助老椅
- 下一篇:一種自擾動小粒徑兼用機械氣力組合式集排器





