[發(fā)明專利]一種檢察案件辦理工作量計算方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011051142.2 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112163423B | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設計)人: | 栗偉;閔新;陳強;覃文軍;馮朝路;王子晴;謝維冬 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289;G06F40/166;G06F40/126;G06F16/903;G06F16/35;G06F18/214;G06N20/20;G06Q50/18;G06Q50/26 |
| 代理公司: | 沈陽東大知識產(chǎn)權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢察 案件 辦理 工作量 計算方法 系統(tǒng) | ||
1.一種檢察案件辦理工作量計算方法,其特征在于,包括如下步驟:
步驟1:基于司法專有名詞詞典的雙向最大匹配法,對每個案件的案件摘要數(shù)據(jù)進行中文分詞處理,根據(jù)司法專有名詞詞典,將連續(xù)的字符處理為單個詞;
步驟2:采用基于TF-IDF的方法對分詞之后的詞數(shù)據(jù)進行文本特征的提取,并將提取到的屬于同一個案件中的所有文本特征用同一個向量表示;
步驟3:采用權重預設的AdaBoost學習器提取每個案件的案件標簽;
步驟4:根據(jù)刑法分則規(guī)則表,對所有案件標簽基于FuzzyWuzzy的字符串模糊匹配方法進行案件分組;
步驟5:對每一組中的每個案件進行編碼;
步驟6:對分組后的每組案件,分別計算基于犯罪嫌疑人的案件工作量,以及采用EM算法迭代計算基于辦案時長的案件工作量,利用公式(1)將計算得到的兩種工作量進行加權求和,得到每個案件的最終案件工作量;利用公式(2)計算每個案件的工作量系數(shù);
式中,F(xiàn)ι表示案件ι的最終案件工作量,表示基于辦案時長計算得到的案件工作量的權重,ω表示基于犯罪嫌疑人計算得到的案件工作量的權重;
式中,θ表示一段時間Π內(nèi)一個檢察官需要處理的案件總數(shù);
所述步驟3包括:
步驟3.1:將每個案件對應的向量作為AdaBoost學習器的樣本數(shù)據(jù),并將所有樣本數(shù)據(jù)分成訓練集和測試集兩部分;
步驟3.2:并利用公式(3)初始化訓練集中每個樣本數(shù)據(jù)的權重λ;
λ=1/φ?????????????????????????????????(3)
式中,φ表示訓練集中樣本數(shù)據(jù)的總個數(shù);
步驟3.3:將訓練集輸入到第一個弱學習器中,訓練第一個弱學習器,當?shù)谝粋€弱學習器的學習誤差率β1大于等于預設的學習誤差率β'時,則表示第一個弱學習器訓練結束,并輸出權值更新后的訓練集;
步驟3.4:當?shù)讦?1個弱學習器訓練結束后,將第μ-1個弱學習器輸出的權值更新后的訓練集輸入到第μ個弱學習器中,訓練第μ個弱學習器,當?shù)讦虃€弱學習器的學習誤差率βi大于等于預設的學習誤差率β'時,則表示第μ個弱學習器訓練結束,并輸出權值更新后的訓練集;
步驟3.5:令μ=1,2,…,Ψ,Ψ表示弱學習器的總個數(shù),依次訓練Ψ個弱學習器;
步驟3.6:將訓練后的Ψ個弱學習器利用公式(4)進行整合,得到最終的AdaBoost學習器F(Γ;Φ),
Φ=(αμ,βμ)????(4)
式中,h(Γ;aμ)表示第μ個弱學習器,αμ表示訓練后的第μ個弱學習器中的參數(shù),Γ表示φ個樣本數(shù)據(jù)構成的向量矩陣,βμ表示第μ個弱學習器在Ψ個弱學習器中所占權重;
步驟3.7:將測試集輸入到最終的AdaBoost學習器F(Γ;Φ)中進行案件標簽的預測,輸出每個案件的案件標簽;
所述步驟4包括:
步驟4.1:基于Fuzzy?Wuzzy的字符串模糊匹配方法,計算提取的案件標簽與刑法分則規(guī)則表中的每個罪名的編輯距離;
步驟4.2:計算出刑法分則規(guī)則表中的所有罪名分別與同一個案件標簽的編輯距離,將編輯距離中的最小值對應的罪名作為案件標簽代表的罪名;
步驟4.3:將屬于同一個罪名的案件標簽分為一組,即實現(xiàn)案件的分組;
步驟5中對每個案件進行編碼時,制定的編碼規(guī)則由四位碼組成:第一位碼采用25個大寫英文字母A~Y分別表示案件的25個一級罪名;第二位碼采用26個小寫英文字母a~z分別表示案件的26個二級罪名;第三位采用10個阿拉伯數(shù)字0~9分別表示二級罪名在一級罪名中的順序碼;第四位采用{1,3,5,2,4,6,0}中的任意一個阿拉伯數(shù)字表示是否有合并罪以及嫌疑人的比例關系,其中:
第四位中的阿拉伯數(shù)字“1”表示無合并罪且犯罪嫌疑人為1人,
第四位中的阿拉伯數(shù)字“3”表示有情節(jié)較輕的合并罪且犯罪嫌疑人1人,
第四位中的阿拉伯數(shù)字“5”表示有情節(jié)嚴重的合并罪且犯罪嫌疑人1人,
第四位中的阿拉伯數(shù)字“2”表示無合并罪且犯罪嫌疑人不少于1人,
第四位中的阿拉伯數(shù)字“4”表示有情節(jié)較輕的合并罪且犯罪嫌疑人不少于1人,
第四位中的阿拉伯數(shù)字“6”表示有情節(jié)嚴重的合并罪且犯罪嫌疑人不少于1人,
第四位中的阿拉伯數(shù)字“0”表示未作出明確表示的情況;
步驟6中采用EM算法迭代計算基于辦案時長的案件工作量,包括:
步驟6.1.1:定義一個檢察官一段時間Π內(nèi)需要處理的案件總數(shù)為θ個,其中案件ι的開始辦案時刻為Stι,結束辦案時刻為Etι,ι=1,2,…,θ,對θ個案件的開始辦案時刻、結束辦案時刻按照時間先后順序進行排序,依排序后的開始辦案時刻、結束辦案時刻作為分割點,將一段時間Π依次分割為2θ-1個時間區(qū)間;
步驟6.1.2:根據(jù)案件ι的開始辦案時刻Stι,結束辦案時刻Etι,在2θ-1個時間區(qū)間找到需要處理案件ι的所有時間區(qū)間,分別定義為表示案件ι所在的第個時間區(qū)間,ρ表示包含案件ι的時間區(qū)間總個數(shù),定義第個時間區(qū)間內(nèi)需要同時處理的案件總數(shù)為則每個案件的初始權重時間區(qū)間內(nèi)每個案件的平均辦案時長表示為案件ι的初始工作量表示為
步驟6.1.3:利用公式(6)計算案件ι第χ次迭代時在時間區(qū)間內(nèi)所在權重利用公式(7)計算案件ι第χ次迭代時的工作量
式中,表示案件ι第χ-1次迭代時的工作量,表示案件ε第χ-1次迭代時的工作量,χ=1,2,…,Ω,Ω表示預設迭代次數(shù);
步驟6.1.4:當達到預設迭代次數(shù)Ω時,迭代計算得到的即為案件ι基于辦案時長的案件工作量;
步驟6中計算基于犯罪嫌疑人的案件工作量,包括:
步驟6.2.1:采用基于條件隨機場的命名實體識別技術提取每個案件中犯罪嫌疑人的姓名和犯罪嫌疑人的個數(shù);
步驟6.2.2:定義案件ι中不同姓名犯罪嫌疑人的總個數(shù)為則案件ι基于犯罪嫌疑人的案件工作量Tfι表示為
2.一種采用權利要求1所述的一種檢察案件辦理工作量計算方法的系統(tǒng),其特征在于,包括數(shù)據(jù)預處理單元、案件分類單元、案件工作量計算單元,所述案件分類單元包括文本特征提取模塊、AdaBoost分類器、模糊匹配模塊、案件編碼模塊;
所述數(shù)據(jù)預處理單元用于對每個案件中的案件摘要數(shù)據(jù)進行中文分詞處理,得到單個詞;
所述文本特征提取模塊用于對單個詞數(shù)據(jù)進行文本特征的提取,并將提取到的屬于同一個案件中的所有文本特征用同一個向量進行表示;
所述AdaBoost分類器用于提取每個案件的案件標簽;
所述模糊匹配模塊用于對所有案件標簽進行分組;
所述案件編碼模塊用于對每一組中的每個案件進行編碼;
所述案件工作量計算單元用于計算每個案件的最終案件工作量以及工作量系數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經(jīng)東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011051142.2/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





