[發明專利]基于多任務的小樣本學習的裁判文書爭議焦點提取方法有效
| 申請號: | 202010792816.8 | 申請日: | 2020-08-10 |
| 公開(公告)號: | CN111651566B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 四川大學;成都數之聯科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/211;G06N3/08;G06N3/04 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 樣本 學習 裁判 文書 爭議 焦點 提取 方法 | ||
本發明公開了基于多任務的小樣本學習的裁判文書爭議焦點提取方法,解決了有爭議的問題被分配到許多類中,而每個類中包含的爭議焦點問題的數量的巨大差異導致類的不平衡,從而導致文本聚類的性能下降,且目前的大部分算法模型對數據的要求都較高,需要實現大量的數據標注工作的問題。本發明通過聚類之后得到一定量的有標簽的數據,使用LDA自動獲取集群標簽,數據增強處理后進行模型訓練、模型剪裁、爭議焦點分類匹配提取司法爭議焦點,本發明能夠更好的為律師法官去檢索類案提供幫助。
技術領域
本發明涉及司法領域爭議焦點領域的文本分類匹配,具體涉及基于多任務的小樣本學習的裁判文書爭議焦點提取方法。
背景技術
隨著我國社會發展的不斷進步,司法改革必將進一步推進。改革從人民群眾對公正的要求出發,以加強對權力的監督和制約為重點。隨著信息技術的高速發展,網絡判決的發布對于促進司法公開起到了至關重要的作用。隨著新訴訟制度的逐步形成,中國法院圍繞有爭議的問題組織辯論。
事實爭議性問題有助于在法庭審判中集中事實調查,而法律爭議性問題有助于法庭辯論組織和法律適用。判決書體現了法律論證的過程,判決書中所包含的爭議問題在庭審過程中被整理、調查和辯論。因此,爭議性問題在審判現場的恢復和法官的決策中起著關鍵的作用。
然而,有效地識別海量數據中的關鍵信息將是一個巨大的挑戰。同類爭議問題的分類成為案例分類的基礎。然而,由于語料庫龐大、表達式多樣、門類繁多,手工地識別外生爭議性問題是很費錢的。使用機器學習算法來提取這些爭議焦點是解決這一問題的有效方法。
由于行政法官的自由裁量權和法外因素,加之事實和法律的確定性,法官的描述缺乏格式。由于人類語言表達的復雜性,在對有爭議的問題進行分類時產生了歧義。準確地對爭議焦點問題進行分類成為一項具有挑戰性的自然語言處理(NLP)任務。
通過研究數據集的結構,發現爭議焦點數據遵循冪律分布,這表明,其中少數類是常見的,而大多數類是罕見的。因此,有爭議的問題被分配到許多類中,而每個類中包含的爭議焦點問題的數量的巨大差異導致了類的不平衡,從而導致文本聚類的性能下降。文本分類技術已成功應用于多種應用,如垃圾郵件識別、情緒分析和輿論監測。但是,目前的大部分算法模型對數據的要求都較高,需要實現大量的數據標注工作。數據標注的任務是計算出總共有多少類有爭議的問題,以及每個類包含哪些有爭議的問題。
發明內容
本發明所要解決的技術問題是:有爭議的問題被分配到許多類中,而每個類中包含的爭議焦點問題的數量的巨大差異導致了類的不平衡,從而導致文本聚類的性能下降;目前的大部分算法模型對數據的要求都較高,需要實現大量的數據標注工作。
本發明提供了解決上述類的數量差異導致的不平衡問題和算法模型對數據要求大量標注的問題的基于多任務的小樣本學習的裁判文書爭議焦點提取方法。
本發明通過下述技術方案實現:
基于多任務的小樣本學習的裁判文書爭議焦點提取方法,包括以下步驟:
S1、依據n個案由數據中有爭議的判斷問題進行分類,將所述有爭議的判斷問題分類為爭議性問題重復訴訟事由組(G1)、一般程序法爭議問題組(G2)、一般實體法爭議問題組(G3)和非一般性法律爭議問題及事實爭議問題組;
S2、對G4文本數據進行爭議焦點處理如下:整理非一般性法律爭議問題及事實爭議問題組并對其中的與案件事實相關的爭議性問題數據(G4)文本數據做如下處理:
步驟S2A、采用bert模型向量化G4文本數據,使用GMM(高斯混合模型)聚合向量化后的G4文本數據得到
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學;成都數之聯科技有限公司,未經四川大學;成都數之聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010792816.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面向磨煤機的分段概率性狀態監測方法
- 下一篇:一種基于過濾防垢的云霧裝置





