[發明專利]一種裁判文書格式化處理方法在審
| 申請號: | 201910698875.6 | 申請日: | 2019-07-31 |
| 公開(公告)號: | CN110599289A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 楊玉東;賀愛英;李英韜;李洪生;張明良;范路佳 | 申請(專利權)人: | 長春市萬易科技有限公司 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06Q50/18 |
| 代理公司: | 22214 長春眾邦菁華知識產權代理有限公司 | 代理人: | 于曉慶 |
| 地址: | 130000 吉林省長春市*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 裁判 格式化處理 格式化數據 檢索 自然語言處理技術 人工智能領域 格式化 類別識別 企業關系 企業數據 企業信用 時間檢索 數據存儲 信息核實 重要數據 自動添加 自動形成 文本化 計算機 分出 識讀 工作量 公文 關聯 應用 案件 | ||
1.一種裁判文書格式化處理方法,其特征在于,包括以下步驟:
步驟一、裁判文書類別識別;
對裁判文書的類別進行維護:刑事案件、民事案件、行政案件、賠償案件、執行案件;在采集裁判文書數據的過程中,根據不同的欄目進行分類標識,刑事案件:CR;民事案件:CI;行政案件:AD;賠償案件:CO;執行案件:EX;
步驟二、標題識別;
默認為單獨一行“最高人民法院”為標題行,其下面一整行內容為該裁判文書的類別標識;
步驟三、文號識別;
步驟四、時間檢索;
完成發文日期、案件發生日期范圍、審理日期范圍的格式化;
步驟五、案件摘要;
步驟六、被告檢索;
步驟七、原告檢索;
步驟八、數據存儲;
將步驟一至步驟七所產生的裁判文書分解的數據保存到數據庫中,并標識數據來源、采集日期,同時存儲整個裁判文書文件及可疑性判斷;
步驟九、信息查重;
步驟十、信息核實;
對存儲后的裁判文書數據進行確認,對可疑性文件進行人工調整;
步驟十一、企業數據關聯。
2.根據權利要求1所述的一種裁判文書格式化處理方法,其特征在于,步驟二包括以下步驟:
S201:設置字符型變量:Cate;
S202:行檢索“最高人民法院”,若檢查存在,即為標題行,提取其下一行文字,提出空格后,記載到變量Cate中;若不存在,則該文本標識為TitleFirstNull;
S203:類別管理
應用類別識別管理功能,將已歸類的類別和新增的列表分類展現出來,人工確認后標記在原始類別和確認類別2個字段中。
3.根據權利要求2所述的一種裁判文書格式化處理方法,其特征在于,步驟三包括以下步驟:
S301:變量設置
設置三個整形變量:Pos、Zipos、Findpos;
六個文本類型變量:Symbol、RelatedSymbol[]、RelatedSymbolDate[]、RelatedSymboCourtl[]、MM,ErrorText;
S302:末尾檢索
采用計算機檢索中,從前到全文后查找“被告人”,查出來后記載其位置Pos,如果查不到記載,ErrorText錯誤標識記載ZiFirstNull,認為該文本沒有有效文號,在判斷結束后步驟;
S303:關鍵詞檢索
然后從前至后,針對刑事案件,查找第一個文號關鍵詞字庫中維護的“字第”、“字”、“號”等關鍵字,并根據步驟S311中維護的文號識別規則引擎算法判斷是否符合規則,如果符合,則記載位置Zipos,如果出現錯誤,則執行以下公式:
ErrorText=ErrorText+“;關鍵詞檢索錯誤”;
S304:比較Zipos與Pos大小,若Zipos<Pos,則認為該文本有有效文號,否則認為該文本沒有獨立有效文號;
S305:字符串截取
在具有有效文號的前提下,提取其后連接的數字為文本文號,“號”為結束標志,其前括號中的數字為年份,年份連同關鍵字共同組成文號標識MM,賦予文本型變量Symbol中;
S306:相關文號查找
繼續向下文查找,查找出以下“字第”出現的位置,向前查找“(”,向后查找“號”中間部分文字記載為相關判決裁判文書文號,賦予變量RelatedSymbol[1]中,Symbol賦值“”;
S307:相關審判日期查找
采用全文檢索,在Zipos位置向前檢索至“法院”位置Findpos,提取“法院”與“(”中間字符,判斷日期的有效性,如果有效,記載為RelatedSymbolDate[1],如果無效,記載RelatedSymbolDate[1]=“”;
S308:相關審判機構查找
采用全文檢索,在Zipos位置向前檢索至“省”,除去前幾個字符與省名稱字符庫對比,找到相同的省份,提取從**省到“人民法院”中間的字符,賦予字符串RelatedSymboCourtl[1];
S309:重復步驟S306至步驟S308繼續向下文查找,查找出以下“字第”出現的位置,賦予數組RelatedSymbol[n]、RelatedSymbolDate[n]、RelatedSymboCourtl[n],n為正文中找到的次數,直至查找到文件結束;
S310:重復文號剔除
判斷數組RelatedSymbol[n],找出重復的項,將本數組最后的項值賦予到第一個重復數值上,最后一個數組刪除,同時按此n值更新RelatedSymbolDate[n]、RelatedSymboCourtl[n]數值;
S311:文號規則引擎管理
應用文號識別規則引擎管理功能,由兩部分組成,關鍵字和關鍵字之間關聯規則組成;
關鍵字由“字第”、“字”、“號”組成;
關鍵字之間的關聯規則由兩個關鍵字之間最大字符數,必須包含字符表、不能包含的字符表等規則組成;
文號識別規則引擎算法為實現上述規則設定的正則運算方法,由關鍵字查找,關鍵之間的字符數計算,中間字符串是否包含必須包含字符,是否不包含必須包含字符四部分組成;
如果出現錯誤,則執行以下公式:
ErrorText=ErrorText+“;文號識別規則計算錯誤:”+字符串位置+傳過來關鍵字符串+“;”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長春市萬易科技有限公司,未經長春市萬易科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910698875.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理裝置及信息處理方法
- 下一篇:跨境交易的數據處理方法和系統





