[發明專利]模型建立方法及系統及段落標簽獲得方法及介質在審
| 申請號: | 202011605780.4 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112699218A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 翁洋;李鑫;王竹;其他發明人請求不公開姓名 | 申請(專利權)人: | 成都數之聯科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/126;G06F40/151;G06F40/279;G06F40/30 |
| 代理公司: | 成都云縱知識產權代理事務所(普通合伙) 51316 | 代理人: | 熊曦;陳婉鵑 |
| 地址: | 610041 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 建立 方法 系統 段落 標簽 獲得 介質 | ||
本發明公開了模型建立方法及系統及段落標簽獲得方法及介質,涉及自然語言處理遷移學習領域,包括:從數據庫中收集所有的裁判文書數據獲得預訓練數據;定義不同類型裁判文書的段落標簽;標記不同類型的裁判文書的段落標簽,得到訓練數據;構建裁判文書結構化模型;預訓練模型;利用訓練數據訓練預訓練后的裁判文書結構化模型;調試訓練后的裁判文書結構化模型,得到最終的裁判文書結構化模型;其中,裁判文書結構化模型的輸入為裁判文書文本數據,且該輸入裁判文書的段落添加有任務前綴,裁判文書結構化模型的輸出為裁判文書的段落標簽文本數據;通過本方法建立的模型在訓練后可以對任意類型的裁判文書段落標簽進行預測。
技術領域
本發明涉及自然語言處理遷移學習領域,具體地,涉及裁判文書結構化模型建立方法及 系統及裁判文書段落標簽獲得方法及介質。
背景技術
截至2019年12月,已經有超過八千萬份的裁判文書上網,為法律人工智能的實踐和研 究提供了海量的數據資源。
裁判文書是記載司法審判活動過程,明確當事人權利義務的司法產品,是研究法律文本 信息的重要資源,為基于裁判文書的類案推薦、裁判結果預測、智能問答等法律人工智能應 用研究提供重要的要素指標。但是,裁判文書基本以純文本形式公開,屬于典型的非結構化 數據,使得從裁判文書中準確地識別和抽取信息變得十分困難。所以我們需要使用機器學習 算法對裁判文書進行結構化。裁判文書結構化是指對文書段落打上相應標簽,把純文本形式 的裁判文書轉化為有段落標簽的結構化數據,屬于文本多分類任務。裁判文書段落的標簽體 系建立為進一步的爭議焦點提取、案情要素抽取以及案情事實的實體識別和關系抽取等信息 抽取任務提供基礎支撐。
然而面對各種類型的裁判文書,人工進行結構化不僅要耗費大量的時間和精力,還可能 因為標準難以統一、過程難以控制而效果較差,而且裁判文書類型多樣:根據案件類型,分 為刑事、民事、行政、賠償、執行、其他等共計六類案件,按審理程序又可分為一審、二審、 再審等。每種類型的裁判文書包含標題、首部、事實、理由、裁判依據、裁判主文、尾部、 落款、附錄九大部分。而對于不同類型的裁判文書,其段落可以根據描述的審判信息不同細 分為“原告訴稱”、“被告辯稱”、“法院認定事實”、“上訴權利告知”等不同段落標簽。不同類型 的裁判文書在內容分布上既有幾乎一致的文本段落,又有相差甚遠的段落類型,也就是說裁 判文書段落標簽有交集但不完全相同,這種段落標簽的多樣性使得各種類型裁判文書的結構 化任務變得十分復雜,使用傳統的文本分類方法不能有效地完成多類型裁判文書的結構化任 務。
使用傳統的文本分類方法不能有效地利用多類型裁判文書之間共享的信息,造成了信息 浪費。比如對于民事一審普通程序裁判文書,有學者提出一種基于裁判文書段落上下文語義 特征的段落文本分類方法。通過BERT作為編碼層,CRF(conditional randomfield)對段落標簽 關系建模,學習完整的裁判文書中段落文本語義信息和段落上下文之間的相關信息,得到了 不錯的分類效果。雖然學習到了民事裁判文書段落的語義信息,但模型效果一部分來自于學 習到的民事裁判文書特定上下文標簽之間的相關關系,并且民事裁判文書和其他類型裁判文 書段落標簽定義有差異,導致該模型無法用來直接預測其他類型的裁判文書段落分類。
傳統的以TextCNN和LSTM為代表的一些“卷積/循環神經網絡+全連接分類層”模型以及它們的衍生模型對于長文本的建模能力有限,且對于復雜文本的表示能力較弱,這直接 限制了這類模型對于裁判文書結構化的分類能力。以BERT和XLNet為代表的“預訓練語言 模型+全連接分類層”雖然能夠在文本表示層面取得巨大的進步,但其對于不同類型的分類任 務都要進行完全獨立的微調過程,浪費了多類型裁判文書之間的共有信息,同時也帶來了較 高的復雜度。
發明內容
通過對背景技術的研究發現,十分有必要探索基于規范要求的統一的機器學習方法來完 成全類型裁判文書結構化任務,將類型多樣形態各異的裁判文書轉化為機器更易識別的、更 為標準化的結構化文本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數之聯科技有限公司,未經成都數之聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011605780.4/2.html,轉載請聲明來源鉆瓜專利網。





