[發明專利]基于深度學習的文書判決結果傾向性的方法及裝置在審
| 申請號: | 201711263320.6 | 申請日: | 2017-11-30 |
| 公開(公告)號: | CN109858008A | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 趙志宏;宋夢姣;陳松宇;王業沛 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 判決結果 傾向性 文本傾向性分析 傾向性分析 裁判 非結構化 關鍵特征 模糊匹配 人工參與 神經網絡 實體識別 文書數據 中間步驟 準確率 多層 省時 省力 標簽 文本 學習 | ||
1.基于深度學習的文書判決結果傾向性的方法,包括通過對裁判文書依次進行數據抽取、數據清洗、數據標注、分詞、生成詞向量、詞向量替換、深度神經網絡訓練和生成模型,從而獲取裁判文書的傾向性結果標簽的步驟;其中:
數據抽取,是從裁判文書中抽取出原告、被告、判決結果的關鍵特征;
數據清洗,利用模糊匹配的方式,識別判決結果中的人名、公司名稱謂,并使用相對應的法律用語代替;設定W是所有原告與被告名稱的集合,sk是第k個名稱wk與判決結果的最長公共子字符串,rk是第k個最長公共子串sk與第k個名稱wk的長度比,則
W={w1,w2,…,wn}
選擇集合{rk}中的最大值所對應的身份,“原告”或者“被告”,替換判決結果中的最長公共子串;
數據標注,將數據清洗得到的判決結果進行人工標注,分別為“支持原告”和“不支持原告”;
分詞:將數據標注的判決結果進行分詞,作為深度神經網絡訓練的輸入;
生成詞向量及詞向量替換:使用word2vector進行詞向量生成;
深度神經網絡訓練和生成模型,將詞向量表示的分詞結果作為LSTM網絡模型的輸入,然后通過多層LSTM的深度神經網絡進行傾向性判斷,最后生成裁判文書的傾向性結果標簽。
2.根據權利要求1所述的基于深度學習的文書判決結果傾向性的方法,其特征在于:生成詞向量和詞向量替換完成之后,在深度神經網絡訓練時,傾向性結果標簽輸出前的輸出節點之前增加一層隱藏層對向量進行特征選擇,最終輸出的傾向性結果標簽使用sigmoid激活函數獲得。
3.根據權利要求1所述的基于深度學習的文書判決結果傾向性的方法,其特征在于:數據標注步驟中,設定如下判定規則:如果單條判決結果中,部分支持原告,則標注支持原告;
如果撤訴判定為支持原告,則標注其支持原告;
如果駁回被告的反訴請求判定為支持原告,同理,駁回原告的反訴請求為支持被告,則標注支持原告。
4.根據權利要求1或3所述的基于深度學習的文書判決結果傾向性的方法,其特征在于:數據標注由至少三個人進行標注。
5.基于深度學習的文書判決結果傾向性的裝置,其特征在于:包括裁判文書的抽取裝置、數據清洗裝置、數據標注裝置、分詞模塊、生成詞向量模塊、詞向量替換模塊、深度神經網絡訓練模塊和裁判文書判決結果傾向性生成標簽模塊;其中:
數據清洗裝置,利用模糊匹配的方式,識別判決結果中的人名、公司名稱謂,并使用相對應的法律用語代替;設定W是所有原告與被告名稱的集合,sk是第k個名稱wk與判決結果的最長公共子字符串,rk是第k個最長公共子串sk與第k個名稱wk的長度比,則
W={w1,w2,…,wn}
選擇集合{rk}中的最大值所對應的身份,“原告”或者“被告”,替換判決結果中的最長公共子串;
數據標注裝置,用于將數據清洗得到的判決結果進行人工標注,分別為“支持原告”和“不支持原告”;
分詞模塊:將數據標注的判決結果進行分詞,作為深度神經網絡訓練的輸入;
深度神經網絡訓練模塊,將詞向量表示的分詞結果作為LSTM網絡模型的輸入,然后通過多層LSTM的深度神經網絡進行傾向性判斷,最后生成裁判文書的傾向性結果標簽;
裁判文書判決結果傾向性生成標簽模塊,通過顯示裝置顯示出來。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711263320.6/1.html,轉載請聲明來源鉆瓜專利網。





