[發明專利]裁判文書結構化分塊方法及裝置在審
| 申請號: | 202010571086.9 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111475626A | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 顧凌云;陳波;王健健 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 裁判 文書 結構 化分 方法 裝置 | ||
1.一種裁判文書結構化分塊方法,其特征在于,應用于計算機設備,所述方法包括:
對待處理裁判文書進行清洗,其中,所述待處理裁判文書包括判決書、裁定書、調解書及決定書;
對清洗后的待處理裁判文書的段落進行簡化處理,得到簡化后的段落,其中,所述簡化后的段落包括段落首部文本、段落尾部文本及段落中部文本的關鍵字;
將所述簡化后的段落輸入優化后的層次化序列標注模型進行計算,得到所述簡化后的段落對應各個預設塊標簽的概率值;其中,所述層次化序列標注模型包括輸入層、嵌入層、前向長短期記憶網絡、后向長短期記憶網絡及輸出層;所述輸入層對所述簡化后的段落進行字向量訓練,并將訓練得到的字向量輸入到所述嵌入層;所述前向長短期記憶網絡按照語言序列從前往后對輸入到所述嵌入層的字向量進行遞歸訓練;所述后向長短期記憶網絡按照語言序列從后往前對輸入到所述嵌入層的字向量進行遞歸訓練;所述輸出層基于所述前向長短期記憶網絡及所述后向長短期記憶網絡的遞歸訓練結果輸出所述簡化后的段落對應各個預設塊標簽的概率值;
將概率值最大的預設塊標簽作為所述簡化后的段落的分塊標簽,得到所述待處理裁判文書中各個段落的分塊標簽。
2.如權利要求1所述的裁判文書結構化分塊方法,其特征在于,所述對清洗后的待處理裁判文書的段落進行簡化處理,得到簡化后的段落的步驟包括:
獲取清洗后的待處理裁判文書的段落首部文本和段落尾部文本;
對清洗后的待處理裁判文本的段落中部文本進行關鍵字識別,提取出所述段落中部文本中的關鍵字;
將所述段落首部文本、段落尾部文本及提取出的關鍵字進行拼接,得到簡化后的段落。
3.如權利要求1所述的裁判文書結構化分塊方法,其特征在于,所述方法還包括訓練層次化序列標注模型的步驟,該步驟包括:
獲取標注數據中的訓練集,其中,所述訓練集包括已經標注段落塊標簽的訓練段落;
將所述訓練段落輸入到所述層次化序列標注模型中進行訓練,得到所述層次化序列標注模型的損失函數值,將該損失函數值與設定的損失函數閾值進行比較,在該損失函數值不小于所述設定的損失函數閾值時,調整所述層次化序列標注模型的參數,重復上述步驟,直到所述層次化序列標注模型的損失函數值小于所述設定的損失函數閾值,得到訓練好的層次化序列標注模型。
4.如權利要求3所述的裁判文書結構化分塊方法,其特征在于,所述方法還包括對訓練好的層次化序列標注模型進行優化的步驟,該步驟包括:
獲取標注數據中的測試集,其中,所述測試集包括已經標注塊標簽的測試段落;
將所述測試段落輸入到所述訓練好的層次化序列標注模型進行測試,根據所述訓練好的層次化序列標注模型輸出的塊標簽以及該測試段落已標注的塊標簽,計算所述訓練好的層次化序列標注模型的平衡F分數;
調整所述訓練好的層次化序列標注模型的參數,重復上述步驟,找到所述訓練好的層次化序列標注模型在不同參數下的平衡F分數;
將平衡F分數最優時對應的層次化序列標注模型,作為所述優化后的層次化序列標注模型。
5.如權利要求1-4中任意一項所述的裁判文書結構化分塊方法,其特征在于,所述方法還包括獲取標注數據的步驟,該步驟包括:
從網絡中爬取預設數量的裁判文書;
對所述爬取的裁判文書進行清洗,構建裁判文書語料庫;
對所述裁判文書語料庫中的段落進行分塊,并對各個分塊進行標簽標注,得到標注數據,其中所述標注數據按照預設比例分為測試集和訓練集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571086.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于擬態防御的數據訪問控制方法及系統
- 下一篇:紅外激發成像裝置





