[發明專利]一種基于enhance matrix的法律案件候選段落的選取方法及裝置有效
| 申請號: | 202110543628.6 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN113361261B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 胡峰;董磊;鄧維斌 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 盧勝斌 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 enhance matrix 法律 案件 候選 段落 選取 方法 裝置 | ||
本發明涉及自然語言處理、人工智能等領域,特別涉及一種基于enhance matrix的法律案件候選段落的選取方法及裝置,方法包括對帶有推理性質的法律閱讀理解數據集進行處理,獲取具有候選段落標注的法律數據集;將每個樣本中的問題與段落分別進行連接,并通過attention操作通過Bert模型輸出兩個不同模型參數的段落向量矩陣,根據該兩個矩陣計算相似度矩陣R;針對每個樣本構建EM矩陣,并利用EM矩陣對相似度矩陣R進行增量處理;將處理后的特征輸入二分類任務分類器進行訓練,通過訓練好的模型獲取概率最高的n個段落作為候選段落;本發明提高段落選擇的準確率,最大程度的減少向下游任務傳遞的噪音信息。
技術領域
本發明涉及自然語言處理、人工智能等領域,特別涉及一種基于enhance matrix的法律案件候選段落的選取方法及裝置。
背景技術
隨著社會的發展和大數據時代的到來,法院每年都要處理大量的訴訟案件,人民法院需要根據當事人的訴訟請求、答辯意見以及證據交換的情況,歸納爭議焦點,這個過程需要法官根據法律規定和審判經驗,結合案件具體情況進行綜合歸納,這個過程十分耗費人力,隨著人工智能的發展,已將有很多自認語言處理領域的技術應用在法律案件爭議焦點歸納上面,并取得了不錯的成績;在獲得爭議焦點之后,還要考慮對“為什么得到這個爭議焦點”提供證據,為爭議焦點的獲取提供可解釋性;由于存在案件類型多,爭議焦點數目多,答案尋找存在多跳情況等問題,基于規則的方式已經無法當前的需求,分案件、爭議焦點的情況下使用多跳機器閱讀理解可以更加出色的完成這個任務。
多跳機器閱讀理解是當前人工智能的一個重要研究方向,在自動問答系統、聊天機器人中具有廣泛的應用。閱讀理解答案的正誤大多能根據背景材料中的少量幾個段落來推斷,本文將這些關鍵段落稱為候選段落,候選段落抽取有助于對答案直接相關的段落進行準確定位,目前已有工作專門針對散文閱讀理解開展基于抽象詞語關聯的答案獲取方法的研究,針對散文選擇題開展選項和背景材料的一致性蘊含問題,文獻采用了較為簡單的詞語匹配抽取算法,正確率不高;另外,多數閱讀理解系統從問題出發將候選段落抽取同答案生成融合為一個問題來提出聯合模型,但該方法缺乏可解釋性,且最終答題的精確度并未得到顯著提高,本發明的主要工作體現在候選段落抽取這一部分,減少向下游任務傳遞噪聲數據。
答案候選句抽取算法大體可以分為3類:基于信息檢索的方法、基于概率主題模型的方法和基于深度學習的詞嵌入方法,但是這3類方法依然存在以下問題:
1)基于信息檢索的方法將候選句抽取任務看成一個檢索問題,早期語義相似度計算方法主要基于空間向量模型,利用TF-IDF刻畫文檔語句相似度,是一種無監督的學習方式,這種方法簡單地采用詞匹配和重疊的方式,難以捕獲句子之間微妙的相關信息;
2)基于概率主題模型方法的基本思路是通過每一篇文檔的主題分布和每一個主題中詞的分布來確定句子的相關度,一般采用經典的概率主題模型(Latent DirichletAllocation,LDA)或在語義分析方法(Latent Semantic Analysis,LSA)等,將高維的文檔降維到潛在語義低維空間來計算語義相關度,這類方法主要從篇章級別對文檔進行建模,而對于微閱讀模式的句子級建模表現較差。
發明內容
本發明針對現有的候選段落獲取技術在處理具有多跳特點的法律領域相關文檔時,無法正確選擇與問題相關的候選段落、學習到段落之間的推理關系等缺點,提出一種基于enhance matrix的法律案件候選段落的選取方法及裝置,所述方法包括以下步驟:
對帶有推理性質的法律閱讀理解數據集進行處理,將一個樣本數據中的候選段落的標簽標為1,非候選段落標為0,獲取具有候選段落標注的法律數據集;
將每個樣本中的問題與段落分別進行連接,并通過attention操作通過Bert模型輸出兩個不同模型參數的段落向量矩陣,根據該兩個矩陣計算相似度矩陣R;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110543628.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種風電風機儲能增效利用裝置
- 下一篇:一種市政工程測繪系統及其使用方法





