[發(fā)明專(zhuān)利]一種基于深度學(xué)習(xí)的法律文書(shū)的相似案件智能檢索系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202010123876.0 | 申請(qǐng)日: | 2020-02-27 |
| 公開(kāi)(公告)號(hào): | CN113312474A | 公開(kāi)(公告)日: | 2021-08-27 |
| 發(fā)明(設(shè)計(jì))人: | 鄒偉;王燕妮;崔冬冬;潘相瑜;李俊玲 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京睿客邦科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F16/33;G06F40/289;G06F40/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100020 北京市朝陽(yáng)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 法律文書(shū) 相似 案件 智能 檢索系統(tǒng) | ||
1.一種基于深度學(xué)習(xí)的法律文書(shū)的相似案件智能檢索系統(tǒng),其特征在于,包含以下模塊:
(1)文書(shū)數(shù)據(jù)采集及預(yù)處理模塊:負(fù)責(zé)法律文書(shū)數(shù)據(jù)的采集和采集后的文書(shū)的預(yù)處理。通過(guò)自行設(shè)計(jì)爬蟲(chóng)程序從《中國(guó)裁判文書(shū)網(wǎng)》上爬取,對(duì)于爬取的文書(shū)中包含html標(biāo)簽的內(nèi)容,使用相應(yīng)算法對(duì)其進(jìn)行清洗,數(shù)據(jù)清洗處理后按照案件類(lèi)型與案由分類(lèi)存儲(chǔ)成txt格式的文件。
(2)文書(shū)數(shù)據(jù)處理模塊:負(fù)責(zé)進(jìn)行分類(lèi)模型訓(xùn)練前的數(shù)據(jù)的處理。使用fasttext深度學(xué)習(xí)算法進(jìn)行分類(lèi)模型訓(xùn)練前,需要將數(shù)據(jù)處理成模型輸入所需格式,通過(guò)將帶入到模型訓(xùn)練的文書(shū)內(nèi)容進(jìn)行分詞然后進(jìn)行所屬案件類(lèi)型的標(biāo)識(shí),而后才可進(jìn)行分類(lèi)模型的訓(xùn)練。
(3)長(zhǎng)文本匹配模塊:負(fù)責(zé)對(duì)輸入的文書(shū)或長(zhǎng)篇文本進(jìn)行相似案件推薦。該模塊有以下工作內(nèi)容:1.長(zhǎng)文本案件類(lèi)型,案由類(lèi)型的判斷:將長(zhǎng)文本內(nèi)容帶入到訓(xùn)練好的案件類(lèi)型、案由類(lèi)型的文本分類(lèi)模型中,得到輸入的長(zhǎng)文本相應(yīng)的案件類(lèi)型、案由類(lèi)型。2:相似案件的文本向量匹配:通過(guò)獲取的長(zhǎng)文本的案件類(lèi)型,帶入到通過(guò)文本向量模型訓(xùn)練后的全部;類(lèi)型的法律文書(shū)向量,得到同一案件類(lèi)型的法律文書(shū)向量,而后通過(guò)長(zhǎng)文本的案由類(lèi)型,進(jìn)一步縮小相似案件的范圍。3:相似爭(zhēng)議焦點(diǎn)、本院認(rèn)為的案件匹配:將長(zhǎng)文本以及與其相似的案件帶入到相似爭(zhēng)議焦點(diǎn)、本院認(rèn)為的模型中,得到與長(zhǎng)文本相似爭(zhēng)議焦點(diǎn)、本院認(rèn)為的案件。
(4)短文本匹配模塊:負(fù)責(zé)對(duì)輸入的相關(guān)的描述進(jìn)行相似案件的推薦。該模塊有以下工作內(nèi)容:1.關(guān)鍵詞匹配打分:在對(duì)短文本進(jìn)行關(guān)鍵詞匹配,將短文本切詞后進(jìn)行全部文書(shū)的遍歷,判斷短文本切詞后再文書(shū)中出現(xiàn)相同詞個(gè)數(shù)以及次數(shù)乘積大小。2.Doc2vec匹配:通過(guò)關(guān)鍵詞匹配打分,遍歷完畢后得到短文本與所有文書(shū)之間的相似度得分,對(duì)結(jié)果進(jìn)行排序,獲取top n。3.word2vec匹配:訓(xùn)練基于全部文書(shū)的詞向量模型,正則匹配相似度前幾的文書(shū)的爭(zhēng)議焦點(diǎn)或本院認(rèn)為部分,求取正則提取每個(gè)詞語(yǔ)的向量,再對(duì)單詞的向量進(jìn)行加權(quán)求平均,通過(guò)計(jì)算相互之間的距離進(jìn)一步縮小相似案件的范圍。
2.根據(jù)權(quán)利要求1,類(lèi)案智能檢索系統(tǒng),其特征在于,所述模塊(3)長(zhǎng)文本匹配模塊的結(jié)構(gòu)具體包括:
(1)文本分類(lèi)模型:在分類(lèi)模型訓(xùn)練時(shí),共進(jìn)行兩種分類(lèi)模型的訓(xùn)練,使用到fasttext深度學(xué)習(xí)算法,一個(gè)分類(lèi)模型是用于判斷法律文書(shū)所屬的案件類(lèi)型,另一個(gè)模型是進(jìn)行文書(shū)所屬案由類(lèi)型的判斷,通過(guò)帶入預(yù)處理后的法律文書(shū)數(shù)據(jù)對(duì)案件類(lèi)型分類(lèi)模型進(jìn)行訓(xùn)練,接著對(duì)不同案件類(lèi)型下的案由類(lèi)型分類(lèi)模型進(jìn)行訓(xùn)練得到,完成了5種案件類(lèi)型的分類(lèi)模型的訓(xùn)練,將長(zhǎng)文本輸入,得到文書(shū)所屬案件類(lèi)型、案由類(lèi)型。
(2)文本向量模型:在文本向量模型在長(zhǎng)文本匹配模塊中此時(shí)的作用是用來(lái)尋找相似文本,在此使用Doc2vec算法進(jìn)行兩種文章向量模型,一種是基于法律文書(shū)進(jìn)行訓(xùn)練的,第二種是將所有法律文書(shū)中‘爭(zhēng)議焦點(diǎn)或本院認(rèn)為’進(jìn)行正則匹配提出后,基于此進(jìn)行訓(xùn)練,每個(gè)模型的訓(xùn)練都是基于案件類(lèi)型分別訓(xùn)練了5個(gè)模型,在進(jìn)行模型訓(xùn)練同時(shí)需要對(duì)文書(shū)進(jìn)行分詞處理。
(3)Doc2vec模型:在實(shí)現(xiàn)長(zhǎng)文本匹配時(shí)使用到Doc2vec模型,此時(shí)模型的作用是進(jìn)一步縮小與長(zhǎng)文本相似文書(shū)的范圍,以及在進(jìn)行爭(zhēng)議焦點(diǎn),本院認(rèn)為相似判斷時(shí)其作用也是進(jìn)一步縮小相似文書(shū)的范圍。
(4)爭(zhēng)議焦點(diǎn),本院認(rèn)為向量模型:將預(yù)處理后的全部法律文書(shū)使用fasttext分類(lèi)后,使用doc2vec算法,進(jìn)行提取文書(shū)本院認(rèn)為、爭(zhēng)議焦點(diǎn)的模型訓(xùn)練,從而進(jìn)行輸入文書(shū)與所在案件類(lèi)型下所有文書(shū)相似度,從相似列表中尋找案由相同的所有文書(shū),進(jìn)一步縮小相似案件的范圍。
3.根據(jù)權(quán)利要求1,類(lèi)案智能檢索系統(tǒng),其特征在于,所述模塊(4)短文本匹配模塊的結(jié)構(gòu)具體包括:
(1)關(guān)鍵詞匹配打分:對(duì)短文本進(jìn)行切詞后,統(tǒng)計(jì)短文本中詞語(yǔ)在文書(shū)出現(xiàn)個(gè)數(shù),以及詞語(yǔ)出現(xiàn)總數(shù),兩者乘積作為相似得分。
(2)Doc2vec匹配:通過(guò)上述的關(guān)鍵詞匹配,接著訓(xùn)練全部文書(shū)的文本向量模型。
(3)Word2vec匹配:對(duì)正則匹配內(nèi)容使用word2vec模型得到每個(gè)詞語(yǔ)的向量,加權(quán)求平均后匹配爭(zhēng)議焦點(diǎn)或本院認(rèn)為,進(jìn)一步縮小相似結(jié)果的范圍。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京睿客邦科技有限公司,未經(jīng)北京睿客邦科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123876.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:水路控制裝置
- 下一篇:一種波束賦形方法以及相關(guān)裝置
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線(xiàn)上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 法律文書(shū)生成系統(tǒng)及方法
- 同案異判文書(shū)的獲取方法及裝置
- 檢測(cè)法律文書(shū)是否重復(fù)的方法及裝置
- 類(lèi)案文書(shū)查找方法及裝置
- 一種法律文書(shū)的確定方法和系統(tǒng)
- 一種法律文書(shū)的確定方法及系統(tǒng)
- 一種法律文書(shū)智能處理、編寫(xiě)方法及系統(tǒng)
- 一種獲得法律文書(shū)的案號(hào)的方法及相關(guān)設(shè)備
- 一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的相似案例推薦方法
- 一種文書(shū)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





