[發明專利]裁判文書結構化分塊方法及裝置在審
| 申請號: | 202010571086.9 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111475626A | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 顧凌云;陳波;王健健 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 裁判 文書 結構 化分 方法 裝置 | ||
本發明提供的裁判文書結構化分塊方法及裝置,涉及數據挖掘與數據分析技術領域。首先,對清洗后的待處理裁決文書的段落進行簡化處理;接著,將簡化后的段落輸入層次化序列標注模型中進行計算;最后,將層次化序列標注模型輸出概率最大的標簽作為塊標簽。在上述方案中,采用層次化的序列標注模型,可以捕獲到裁判文書段落與段落之間的語義信息,也可以捕獲段落本身的語義特征,如此通過語義的角度進行段落分塊處理,可以提高裁判文書的分塊效果。采用簡化后的段落可以減小模型計算的開銷提高處理效率。同時,本方案不需要人工過多參與,開發簡單、維護成本低。基于語義特征的分塊處理還能準確識別新增裁判文書的結構分塊,具有較好的擴展性。
技術領域
本發明涉及數據挖掘與數據分析技術領域,具體而言,涉及一種裁判文書結構化分塊方法及裝置。
背景技術
裁判文書作為網上公開的司法數據,對于律師、金融、政府等各個行業的數據分析和信息挖掘非常的重要。但是,裁判文書文檔一般都很長,對于用戶閱讀和信息定位十分的不便。因此對裁判文書進行結構化處理,將內容結構化分塊,可以便于裁判文書數據的挖掘和分析,也便于律師和法官等相關用戶進行閱讀和分析。
現有的裁判文書結構化處理大多數采用正則表達式的方式,由于裁判文書數據海量、表述多樣性,需要開發眾多的正則表達式,同時也可能會面臨現有的正則表達式無法處理逐年新增裁判文書的結構化。利用正則表達式進行裁判文書結構化處理的另一個問題在于,由于大量正則表達式同時存在,需要人工排序正則表達式的適用順序,排除不同正則表達式之間的沖突,這使得分段結果的準確率嚴重依賴于人工操作。綜上所述,目前裁判文書的結構化處理存在開發麻煩、維護成本高、可擴展性不好的技術缺陷。
發明內容
為了改善上述問題,本發明提供了一種裁判文書結構化分塊方法及裝置。
本發明的第一方面,提供一種裁判文書結構化分塊方法,應用于計算機設備,所述方法包括:
對待處理裁判文書進行清洗,其中,所述待處理裁判文書包括判決書、裁定書、調解書及決定書;
對清洗后的待處理裁判文書的段落進行簡化處理,得到簡化后的段落,其中,所述簡化后的段落包括段落首部文本、段落尾部文本及段落中部文本的關鍵字;
將所述簡化后的段落輸入優化后的層次化序列標注模型進行計算,得到所述簡化后的段落對應各個預設塊標簽的概率值;其中,所述層次化序列標注模型包括輸入層、嵌入層、前向長短期記憶網絡、后向長短期記憶網絡及輸出層;所述輸入層對所述簡化后的段落進行字向量訓練,并將訓練得到的字向量輸入到所述嵌入層;所述前向長短期記憶網絡按照語言序列從前往后對輸入到所述嵌入層的字向量進行遞歸訓練;所述后向長短期記憶網絡按照語言序列從后往前對所述嵌入層的字向量進行遞歸訓練;所述輸出層基于所述前向長短期記憶網絡及所述后向長短期記憶網絡的遞歸訓練結果輸出所述簡化后的段落對應各個預設塊標簽的概率值;
將概率值最大的預設塊標簽作為所述待處理裁判文書的塊標簽,得到所述待處理裁判文書的分塊標簽。
進一步地,所述對清洗后的待處理裁判文書的段落進行簡化處理,得到簡化后的段落的步驟包括:
獲取清洗后的待處理裁判文書的段落首部文本和段落尾部文本;
對清洗后的待處理裁判文本的段落中部文本進行關鍵字識別,提取出所述段落中部文本中的關鍵字;
將所述段落首部文本、段落尾部文本及提取出的關鍵字進行拼接,得到簡化后的段落。
進一步地,所述方法還包括訓練層次化序列標注模型的步驟,該步驟包括:
獲取標注數據中的訓練集,其中,所述訓練集包括已經標注塊標簽的訓練段落;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571086.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于擬態防御的數據訪問控制方法及系統
- 下一篇:紅外激發成像裝置





