[發明專利]一種根據犯罪事實的描述自動生成法院觀點的方法有效
| 申請號: | 201811210148.2 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109408630B | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 王世晞;張亮;徐建忠;劉濤 | 申請(專利權)人: | 杭州世平信息科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289;G06Q50/18;G06N3/04;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 徐文權 |
| 地址: | 310012 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 根據 犯罪 事實 描述 自動 生成 法院 觀點 方法 | ||
本發明公開了一種根據犯罪事實的描述自動生成法院觀點的方法,該方法是將根據犯罪事實的描述自動生成法院觀點視為基于Seq2Seq模型的自然語言生成任務。Seq2Seq模型中,本發明采用雙向LSTM加上Attention機制對犯罪事實的描述進行編碼,LSTM進行解碼生成對應的法院觀點。本發明節省了法官時間,為法律文書自動化生成邁進了一步。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種根據犯罪事實的描述自動生成法院觀點的方法。
背景技術
隨著人工智能的快速發展,人工智能在法律領域的應用也越來越熱,其中自動化法律文本生成是目前的一個難點。自動化法律文本生成可以節省大量人力,將法律從業人員從起草者變成審校者。自動化法律文本生成中,法院觀點的生成是一個難點。法院觀點需要包含與罪名相關的重要的犯罪事實細節(如對故意傷害罪來說,傷害程度、傷害人數等)。與文本轉述不同,法院觀點需要將犯罪事實進行一定的歸納總結;與文本摘要技術不同,法院觀點并不是將犯罪事實進行摘要,而是從犯罪事實中找出和罪名相關的細節,繼而生成相應的語句。因此現有的文本轉述技術和自動摘要技術都并不適用于根據犯罪事實描述生成法院觀點這個場景。
發明內容
本發明的目的在于提供一種根據犯罪事實的描述自動生成法院觀點的方法,以克服現有技術的缺點,本發明節省了法官時間,為法律文書自動化生成邁進了一步。
為達到上述目的,本發明采用如下技術方案:
一種根據犯罪事實的描述自動生成法院觀點的方法,包括以下步驟:
步驟1)構建根據犯罪事實描述生成法院觀點的模型;
步驟2)將犯罪事實輸入步驟1)構建的模型中,輸出法院觀點。
進一步地,步驟1)具體包括以下步驟:
步驟1.1)構建訓練數據集,所述訓練數據集由犯罪事實描述、罪名及法院觀點對應組成;
步驟1.2)對訓練數據集中的犯罪事實描述和法院觀點進行預處理,使用自然語言處理工具對犯罪事實描述和法院觀點進行分詞,將所有犯罪事實描述包含的詞和所有法院觀點包含的詞分別形成兩個詞表,根據詞表分別將犯罪事實描述和法院觀點的詞序列轉化為one-hot詞向量序列:Xseq和Yseq;
步驟1.3)以犯罪事實描述one-hot詞向量序列Xseq和罪名V做為模型輸入,法院觀點one-hot詞向量序列Yseq做為輸出,利用機器學習技術對模型進行訓練,得到模型中的各個參數。
進一步地,步驟1.1)中獲取訓練數據集的方法為:從裁判文書網中遍歷罪名爬取刑事判決書,對每一份刑事判決書,通過正則表達式提取出犯罪事實描述和法院觀點,將犯罪事實描述和法院觀點與罪名組合起來形成訓練數據集。
進一步地,所述犯罪事實描述為包含經審理查明的段落;所述法院觀點為包含本院認為的句子。
進一步地,步驟1.3)具體為:
模型使用兩個Word-embedding層分別將Xseq和Yseq的稀疏one-hot詞向量轉化成embedding詞向量x,y,使用單層神經網絡將罪名的one-hot向量轉化為密集向量Ev,并使用雙向LSTM和Attention機制對犯罪事實的描述進行編碼,對于時刻i,隱藏狀態hi為:
其中和分別為正向和反向LSTM在時刻i的隱藏狀態:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州世平信息科技有限公司,未經杭州世平信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811210148.2/2.html,轉載請聲明來源鉆瓜專利網。





