[發明專利]一種法院案件卷宗識別方法有效
| 申請號: | 202110543832.8 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN113239681B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 姜森;謝紹韞 | 申請(專利權)人: | 蘇州黑云智能科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30;G06F40/103;G06K9/62;G06Q50/18 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 葉丙靜 |
| 地址: | 215000 江蘇省蘇州市中國(江蘇)自由貿易試驗區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 法院 案件 卷宗 識別 方法 | ||
1.一種法院案件卷宗識別方法,其特征在于:該方法基于案情全文進行罪名分析和特征要素提取,提取案件要素,輔助法院工作人員分析案件,具體包括以下步驟:
S1:采用基于規則的方法和相似度模型的方法對案件罪名進行分析;
S2:構建語料庫和規則庫;
S3:基于語義和句式規則進行段落劃分;
S4:采用基于規則的方法和基于實體識別的方法對案件中的關鍵特征要素進行提取;
S5:規范數據格式;
S6:展示分析結果;
所述S1中,基于規則的方法為構建罪名句式規則庫,通過正則表達式提取與規則庫相匹配的罪名數據;
若提取失效,未從判決書中提取到罪名數據,則采用基于詞向量模型word2vec,相似度模型的方法;
該方法首先基于大量的同案判決書文檔,訓練同案罪名的語料庫模型,然后基于訓練好的模型來對新的待處理文檔進行罪名分析;
所述S2中,基于若干同類罪名案件,對相似段落和案情歸納分析,判決書的格式與法院所在地和時間有一定的關系,通過對一定的判決書進行歸納總結,總結句式規則和關鍵詞庫,根據不同罪名指定不同的正則表達式和詞庫,其中,故意傷害罪構建作案物品詞庫,販賣毒品罪構建毒品詞庫;并通過案件數據迭代補全語料庫和規則庫,用于后續段落和結構化數據的提取;正則表達式是用來檢索和替換符合某個模式和規則的文本;
所述S3中,將整個判決書劃分為被告人個人信息段落、案情段落、本院認為段落和判刑結果段落;
其中,被告人個人信息段落基于語義來提取,包含各個被告人的姓名、出生年月、出生地、民族、文化程度、職業和住址;
案情段落基于句式規則來劃分和提取,案情段落的句首句式符合句式規則,通過不斷地迭代完善該句式規則,對所有判決文書的劃分案情段落;
句式規則為:段落開始為‘本院認為’為加減刑段落,段落開始包含‘**犯**罪,被判處’的段落為判刑段落;
本院認為段落通過語義和句式規則來劃分,包含報告人犯罪總結和判決依據信息;
判刑結果段落為各個被告人在該審中的判刑結果;
所述S4中,對于數值型的關鍵特征要素,采用基于句式規則的方式進行提取,通過正則表達式和句式語義提取正確的數值項;
對于枚舉型的關鍵特征要素,構建其完整的詞庫,基于完整的詞庫,通過正則表達式和句式語義在案情中篩選特征值;
對于被害人和涉案地點的實體項關鍵特征要素,采用實體識別的方法進行提取,選用文本預處理模型BERT;
所述對于被害人和涉案地點的實體項特征,采用實體識別的方法進行提取,選用文本預處理模型BERT具體為:
第一步:選取數據集,在詞性標注任務中,采用人名日報標注語料庫,按7:3比例劃分為訓練集和測試集;
第二步:數據預處理,對于中文文本,對數據進行預處理,將文本拆分成一系列漢字,并對每個漢字進行詞性標注;
標注采用“BIO”模式,其中“B”表示該漢字是詞匯的開始字符;“I”表示該漢字是詞匯的中間字符;“O”表示該漢字不在詞匯當中;根據BERT模型的要求,設定最大序列長度,并根據此參數對序列進行設置數據長度padding;
第三步:模型訓練,配置模型的存放路徑、詞表、預訓練模型配置信息、最大序列長度、訓練批次num_epochs和學習率的參數訓練模型,并在數據分割時,保證所有詞性標簽在訓練數據中均有出現;
第四步:實體識別提取,將待預測的句子拆分為一系列單字后輸入到訓練好的模型當中,模型輸出每一個單字對應的預測詞性,將”B“開頭,后面跟著“I”的漢字拼接起來,直到遇到下一個”B”標簽漢字,從而分出一個個標注詞性的單詞詞語,從中取出被害人和涉案地點項;
其中,一系列單字就是按一個字一個字的拆分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州黑云智能科技有限公司,未經蘇州黑云智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110543832.8/1.html,轉載請聲明來源鉆瓜專利網。





