[發(fā)明專(zhuān)利]一種基于多目標(biāo)優(yōu)化的刑罰測(cè)試數(shù)據(jù)擴(kuò)增方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010763765.6 | 申請(qǐng)日: | 2020-08-01 |
| 公開(kāi)(公告)號(hào): | CN111881654B | 公開(kāi)(公告)日: | 2023-07-18 |
| 發(fā)明(設(shè)計(jì))人: | 夏春艷;張巖;李明 | 申請(qǐng)(專(zhuān)利權(quán))人: | 牡丹江師范學(xué)院 |
| 主分類(lèi)號(hào): | G06F40/166 | 分類(lèi)號(hào): | G06F40/166;G06F40/211;G06F16/33;G06F16/35 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 157012 黑龍*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多目標(biāo) 優(yōu)化 刑罰 測(cè)試數(shù)據(jù) 擴(kuò)增 方法 | ||
1.一種基于多目標(biāo)優(yōu)化的刑罰測(cè)試數(shù)據(jù)擴(kuò)增方法,其特征在于將基于遺傳算法的多目標(biāo)優(yōu)化技術(shù)應(yīng)用到司法刑罰測(cè)試數(shù)據(jù)擴(kuò)增中,通過(guò)多目標(biāo)優(yōu)化技術(shù)與數(shù)據(jù)擴(kuò)增方法的融合,為司法智能軟件擴(kuò)增出強(qiáng)泛化能力的測(cè)試數(shù)據(jù),有效地測(cè)試刑罰預(yù)測(cè)模型的準(zhǔn)確性,該方法包括如下步驟:
1)測(cè)試數(shù)據(jù)擴(kuò)增,在刑罰預(yù)測(cè)模型原始測(cè)試集的基礎(chǔ)上,通過(guò)置換、插入和刪除文本中句子的方式獲得大量的具有相同標(biāo)簽的擴(kuò)增數(shù)據(jù);首先,輸入結(jié)構(gòu)良好的司法裁判文書(shū)文本數(shù)據(jù)作為原始測(cè)試數(shù)據(jù)集D0,按照標(biāo)簽“案件罪名”對(duì)文本測(cè)試數(shù)據(jù)進(jìn)行分類(lèi),抽取每個(gè)案件的“案情事實(shí)”和“刑期結(jié)果”的標(biāo)簽內(nèi)容,對(duì)“案件事實(shí)”做初步的文本預(yù)處理,“刑期結(jié)果”做簡(jiǎn)單的數(shù)學(xué)統(tǒng)計(jì),分為三類(lèi):死刑、無(wú)期徒刑和有期徒刑;然后,對(duì)于“案件罪名”標(biāo)簽相同的案件,以“案情事實(shí)”文本中的整個(gè)句子為基本單位,通過(guò)置亂句子、刪除句子和插入句子三種方式對(duì)D0進(jìn)行擴(kuò)增,可獲得三個(gè)與原始數(shù)據(jù)集規(guī)模相同的新數(shù)據(jù)集,將其混合得到擴(kuò)增數(shù)據(jù)集D;
2)測(cè)試數(shù)據(jù)優(yōu)化,以測(cè)試數(shù)據(jù)的精確率、召回率和F1值,以及針對(duì)刑罰預(yù)測(cè)模型測(cè)試數(shù)據(jù)的重要度為優(yōu)化目標(biāo),利用遺傳算法的選擇、交叉和變異操作,從擴(kuò)增的大量數(shù)據(jù)中搜索高質(zhì)量的測(cè)試數(shù)據(jù),從而增加擴(kuò)增測(cè)試數(shù)據(jù)的數(shù)量和多樣性,提高擴(kuò)增測(cè)試數(shù)據(jù)的泛化能力;第一,以擴(kuò)增數(shù)據(jù)集D中案例數(shù)據(jù)對(duì)應(yīng)的序號(hào)作為輸入數(shù)據(jù),對(duì)所有數(shù)據(jù)進(jìn)行全排列,隨機(jī)選擇n個(gè)排列序列構(gòu)建初始種群,每個(gè)個(gè)體包含的測(cè)試案例數(shù)量為m;個(gè)體采用十進(jìn)制編碼方式,基本基因位代表相應(yīng)的測(cè)試案例序列號(hào);第二,將種群數(shù)據(jù)注入到刑罰預(yù)測(cè)模型,獲得測(cè)試數(shù)據(jù)的精確率、召回率和F1值;對(duì)于“案件罪名”標(biāo)簽相同的案件,統(tǒng)計(jì)每類(lèi)案件中死刑、無(wú)期徒刑和有期徒刑三類(lèi)刑罰數(shù)據(jù)在個(gè)體和種群中出現(xiàn)的頻率,綜合評(píng)價(jià)其所在個(gè)體的重要程度;第三,以測(cè)試數(shù)據(jù)的精確率、召回率、F1值和重要度為優(yōu)化目標(biāo),利用多目標(biāo)遺傳算法的選擇、交叉和變異操作搜索高質(zhì)量的測(cè)試數(shù)據(jù),獲得擴(kuò)增測(cè)試數(shù)據(jù)集D′;第四,將本設(shè)計(jì)獲得的擴(kuò)增測(cè)試數(shù)據(jù)集D′注入到刑罰預(yù)測(cè)模型進(jìn)行測(cè)試,計(jì)算模型的準(zhǔn)確率,以此來(lái)檢驗(yàn)本設(shè)計(jì)方法獲得的擴(kuò)增測(cè)試數(shù)據(jù)的泛化能力。
2.根據(jù)權(quán)利要求1中所述的基于遺傳算法的刑罰預(yù)測(cè)測(cè)試數(shù)據(jù)擴(kuò)增方法,其特征在于,在步驟1)中,測(cè)試數(shù)據(jù)擴(kuò)增;第一,輸入原始測(cè)試數(shù)據(jù)集D0={d1,d2,…,dt},dt表示第t個(gè)測(cè)試數(shù)據(jù),其為結(jié)構(gòu)良好的司法裁判文書(shū)文本數(shù)據(jù),包括案件罪名、案發(fā)時(shí)間、案發(fā)地點(diǎn)、案情事實(shí)和刑罰結(jié)果;第二,按照“案件罪名”對(duì)案件文本測(cè)試數(shù)據(jù)進(jìn)行分類(lèi),抽取每個(gè)案件的案情事實(shí)和刑罰結(jié)果的標(biāo)簽內(nèi)容;第三,對(duì)“案情事實(shí)”進(jìn)行初步的文本預(yù)處理,根據(jù)常用停止詞列表去除文本中無(wú)意義的停止詞;對(duì)“刑罰結(jié)果”做簡(jiǎn)單的數(shù)學(xué)統(tǒng)計(jì),分為三類(lèi):死刑、無(wú)期徒刑和有期徒刑;第四,對(duì)于“案件罪名”標(biāo)簽相同的案件,我們針對(duì)“案情事實(shí)”文本中的句子,以置亂句子、刪除句子和插入句子三種方式對(duì)D0進(jìn)行擴(kuò)增,具體如下:
置亂,本設(shè)計(jì)以文本中的完整句子為基本單位,由于句子順序?qū)γ枋鍪聦?shí)的文本意義影響不大,所以隨機(jī)地置亂原文本中句子的順序,可得到與原文本數(shù)據(jù)具有相同標(biāo)簽的規(guī)模相同的擴(kuò)增數(shù)據(jù)集D1={d11,d12,…,d1t};
刪除,由于描述事實(shí)的文本中含有很多冗余的句子,這些句子對(duì)文本描述的意義影響不大,刪除它們不會(huì)影響對(duì)案例的理解,所以采用隨機(jī)方法,隨機(jī)地刪除原文本中的一個(gè)句子;如果原文本中只包含一個(gè)句子,則不進(jìn)行任何處理;對(duì)每個(gè)文本執(zhí)行相同的刪除操作,可得到與原文本數(shù)據(jù)具有相同標(biāo)簽的規(guī)模相同的擴(kuò)增數(shù)據(jù)集D2={d21,d22,…,d2t};
插入,由于案件罪名相同的案例在描述文本時(shí)會(huì)有許多相似的句子,所以將具有相同案件罪名標(biāo)簽的文本數(shù)據(jù)劃分為一類(lèi);從另一個(gè)具有相同標(biāo)簽的文本中選擇一個(gè)句子,再隨機(jī)地插入到原文本數(shù)據(jù)中,可得到與原文本數(shù)據(jù)具有相同標(biāo)簽的規(guī)模相同的擴(kuò)增數(shù)據(jù)集D3={d31,d32,…,d3t};
通過(guò)上述三種數(shù)據(jù)擴(kuò)增方法,可以獲得三個(gè)與原始數(shù)據(jù)集規(guī)模相同的新數(shù)據(jù)集,將其混合得到擴(kuò)增數(shù)據(jù)集D=D1∪D2∪D3。
3.根據(jù)權(quán)利要求1所述的基于遺傳算法的刑罰預(yù)測(cè)測(cè)試數(shù)據(jù)擴(kuò)增方法,其特征在于,在步驟2)中,測(cè)試數(shù)據(jù)優(yōu)化;
1)以結(jié)構(gòu)化文本類(lèi)擴(kuò)增數(shù)據(jù)集D中案例數(shù)據(jù)對(duì)應(yīng)的序號(hào)作為輸入數(shù)據(jù),對(duì)所有數(shù)據(jù)進(jìn)行全排列,隨機(jī)選擇n個(gè)排列序列構(gòu)建初始種群,個(gè)體采用十進(jìn)制編碼方式,基本基因位代表相應(yīng)的測(cè)試案例序列號(hào);其中,初始種群為x={x1,x2,…,xi,…,xn},n為種群規(guī)模,x的第i個(gè)個(gè)體為xi={xi,1,xi,2,…,xi,j,…,xi,m},xi,j代表xi的第j個(gè)測(cè)試案例,m為xi包含的測(cè)試案例的數(shù)量;
2)將上述種群數(shù)據(jù)注入到刑罰預(yù)測(cè)模型,獲得測(cè)試數(shù)據(jù)的精確率、召回率和F1值;對(duì)于“案件罪名”標(biāo)簽相同的案件,統(tǒng)計(jì)每類(lèi)案件中死刑、無(wú)期徒刑和有期徒刑三類(lèi)刑罰數(shù)據(jù)在個(gè)體和種群中出現(xiàn)的頻率,綜合評(píng)價(jià)其所在個(gè)體的重要程度;計(jì)算公式如下:
精確率在被模型預(yù)測(cè)為正確的樣本中,實(shí)際是正確樣本的概率,表達(dá)式為
召回率在實(shí)際為正確的樣本中,被模型預(yù)測(cè)為正確樣本的概率,表達(dá)式為
F1值綜合評(píng)價(jià)精確率和召回率,讓兩者同時(shí)達(dá)到最高,取得的平衡點(diǎn),表達(dá)式為
微觀層面上看,指模型正確地預(yù)測(cè)了xi的真樣本的個(gè)數(shù);指模型正確地預(yù)測(cè)了xi的假樣本的個(gè)數(shù);指模型錯(cuò)誤地預(yù)測(cè)了xi的真樣本的個(gè)數(shù);
重要度綜合評(píng)價(jià)個(gè)體的重要程度,與個(gè)體中出現(xiàn)的頻率成正比,與種群中出現(xiàn)的頻率成反比,表達(dá)式為
其中
上式中,m表示xi包含的測(cè)試數(shù)據(jù)的總數(shù),當(dāng)k=1,2,3時(shí),分別表示死刑、無(wú)期徒刑和有期徒刑三類(lèi)特征數(shù)據(jù)在xi中出現(xiàn)的次數(shù),F(xiàn)Dk(xi)分別表示死刑、無(wú)期徒刑和有期徒刑三類(lèi)特征數(shù)據(jù)在xi中的分布情況
3)以測(cè)試數(shù)據(jù)的精確率、召回率、F1值和重要度為優(yōu)化目標(biāo),利用多目標(biāo)遺傳算法的選擇、交叉和變異操作搜索高質(zhì)量的測(cè)試數(shù)據(jù),獲得擴(kuò)增測(cè)試數(shù)據(jù)集D′={d1,′d2,′…dm′};其中,選擇操作采用錦標(biāo)賽選擇策略,交叉操作采用循環(huán)交叉方法,變異操作采用序號(hào)變異方法,具體如下:
選擇算子:采用錦標(biāo)賽選擇策略;每次從種群n中隨機(jī)選擇數(shù)量為n/2的個(gè)體,然后采用非支配排序算法求得帕累托最優(yōu)解,從中選擇最優(yōu)的個(gè)體進(jìn)入子代種群;重復(fù)上述操作,直到新的種群規(guī)模達(dá)到n為止;
交叉算子:采用循環(huán)交叉方法;第一步,在父代1上隨機(jī)選擇一個(gè)基因,然后找到父代2相應(yīng)位置上的基因編號(hào),再回到父代1找到同編號(hào)的基因位置,重復(fù)先前工作,直至形成一個(gè)環(huán),環(huán)中的所有基因的位置即為最后選中的位置;第二步,用父代1選中的基因生成子代,并保證位置對(duì)應(yīng);第三步,將父代2中剩余的基因放入子代;
變異算子:采用序號(hào)變異方法;隨機(jī)選擇父代個(gè)體的一個(gè)基因位,將該點(diǎn)的測(cè)試案例刪除,然后隨機(jī)插入一個(gè)與當(dāng)前個(gè)體中已有基因不重復(fù)的測(cè)試案例,形成一個(gè)新的子代個(gè)體;
4)將本設(shè)計(jì)獲得的擴(kuò)增測(cè)試數(shù)據(jù)集注入到刑罰預(yù)測(cè)模型進(jìn)行測(cè)試,計(jì)算模型的準(zhǔn)確率,以此來(lái)檢驗(yàn)本設(shè)計(jì)方法獲得的擴(kuò)增測(cè)試數(shù)據(jù)的泛化能力;其中,準(zhǔn)確率是評(píng)價(jià)深度學(xué)習(xí)模型性能的一般指標(biāo),指的是對(duì)于給定的測(cè)試數(shù)據(jù)集,模型正確分類(lèi)的樣本數(shù)和總樣本數(shù)之比,表達(dá)式為
微觀層面上看,指模型正確地預(yù)測(cè)了xi的真樣本的個(gè)數(shù);指模型正確地預(yù)測(cè)了xi的假樣本的個(gè)數(shù);指模型錯(cuò)誤地預(yù)測(cè)了xi的真樣本的個(gè)數(shù);指模型錯(cuò)誤地預(yù)測(cè)了xi的假樣本的個(gè)數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于牡丹江師范學(xué)院,未經(jīng)牡丹江師范學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010763765.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 用于實(shí)現(xiàn)多目標(biāo)方業(yè)務(wù)或操作的方法和裝置
- 基于智能視頻分析平臺(tái)的多目標(biāo)跟蹤方法及其系統(tǒng)
- 多目標(biāo)設(shè)計(jì)選擇方法和系統(tǒng)
- 一種針對(duì)多目標(biāo)的地面導(dǎo)航系統(tǒng)及其方法
- 一種無(wú)斷點(diǎn)多目標(biāo)信號(hào)合成方法
- 基于多智能體深度增強(qiáng)學(xué)習(xí)的多目標(biāo)跟蹤方法
- 一種多目標(biāo)跟蹤方法
- 一種航空紅外視頻多目標(biāo)檢測(cè)與跟蹤方法及裝置
- 一種多目標(biāo)推薦方法、多目標(biāo)推薦模型生成方法以及裝置
- 一種區(qū)域多目標(biāo)衛(wèi)星探測(cè)仿真方法及系統(tǒng)
- 一種監(jiān)禁目標(biāo)分類(lèi)管理系統(tǒng)
- 一種結(jié)合多項(xiàng)數(shù)據(jù)對(duì)監(jiān)禁目標(biāo)進(jìn)行分管的方法
- 一種社區(qū)矯正管理系統(tǒng)的設(shè)計(jì)
- 一種用于普法和教學(xué)的刑罰樹(shù)模型
- 一種基于區(qū)塊鏈的監(jiān)獄犯人管理系統(tǒng)及設(shè)備、介質(zhì)
- 刑罰變更執(zhí)行檢察智能輔助辦案系統(tǒng)
- 一種智慧監(jiān)獄系統(tǒng)
- 一種基于多目標(biāo)優(yōu)化的刑罰測(cè)試數(shù)據(jù)擴(kuò)增方法
- 信息查詢(xún)方法、裝置、設(shè)備及介質(zhì)
- 刑法牌





