[發明專利]事實描述文本預測方法及裝置有效
| 申請號: | 201810903715.6 | 申請日: | 2018-08-09 |
| 公開(公告)號: | CN110858269B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 劉知遠;涂存超;胡紫昆;李想;孫茂松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06Q10/04;G06Q50/18 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;吳歡燕 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事實 描述 文本 預測 方法 裝置 | ||
本發明實施例提供一種事實描述文本預測方法及裝置,其中所述方法包括:對待預測案件的事實描述文本進行預處理,獲得多個詞向量;將所述多個詞向量按順序輸入至事實描述文本預測網絡模型中,獲得所述待預測案件的事實描述文本預測結果;其中,所述事實描述文本預測網絡模型是基于刑事法律文書樣本集中的案情描述文本、案情所對應的實際罪名以及所述實際罪名對應的屬性信息訓練得到。本發明實施例通過將事實描述文本的屬性信息加入至模型訓練過程中,使得訓練完成的事實描述文本預測模型能夠有效地預測樣本較少的罪名,且利用罪名屬性信息能夠較好地區分易混淆的事實描述文本,提高了自動罪名預測的準確性。
技術領域
本發明實施例涉及機器學習以及自然語言處理領域,更具體地,涉及事實描述文本預測方法及裝置。
背景技術
自動罪名預測是根據案件的事實描述來自動地決定刑事案件中被告的罪名。幾十年來,已經有很多的法律界和計算機界的專家學者提出了不同的方法來進行罪名預測的任務。在已有的方法中,往往是利用機器學習中的相關方法,對于案件中的事實描述的淺層文本特征(詞、短語)或者屬性特征(日期、地點等)進行罪名預測。
近年來,隨著機器學習特別是深度學習的發展,一些新的方法被引入到這個領域。我們可以將罪名預測看作一個基于事實描述的文本分類問題,以事實描述作為文本輸入,罪名作為分類的類別依據建立機器學習模型。在這基礎上,又有學者將刑法法條等信息引入到罪名預測之中,提升預測的準確率。
然而,我國刑法總共有好幾百個法條,涉及罪名也有幾百個,而之前已有的工作往往將目標放在出現最多的幾十個罪名上,而忽視了其它的罪名。但是,在排除一些現實生活也極少出現的罪名之后,仍然有兩百個左右的出現頻率較低的罪名。而對于這部分罪名,由于其本來的案例較少,自動罪名預測往往難以達到很好的效果。所以,在出現頻率較低,案件樣本較少的罪名上,自動罪名預測的效果仍有很大的提升空間。同時,自動罪名預測與人為確定罪名有一定的相似之處,對于一些較為類似的罪名會產生一定的混淆。一些法律上容易混淆的罪名,在自動罪名預測中,也常常被混淆。由此可見,對易混淆的罪名做出更好的區分對于提升自動罪名預測的效果尤為重要。
發明內容
為了克服現有自動罪名預測方法在低頻罪名和易混淆罪名上的不足,本發明實施例提供事實描述文本預測方法及裝置。
第一方面,本發明實施例提供一種事實描述文本預測方法,包括:
對待預測案件的事實描述文本進行預處理,獲得多個詞向量;
將所述多個詞向量按順序輸入至事實描述文本預測網絡模型中,獲得所述待預測案件的事實描述文本預測結果;
其中,所述事實描述文本預測網絡模型是基于刑事法律文書樣本集中的案情描述文本、案情所對應的實際罪名以及所述實際罪名對應的屬性信息訓練得到。
第二方面,本發明實施例提供一種事實描述文本預測裝置,包括:
預處理模塊,用于對待預測案件的事實描述文本進行預處理,獲得多個詞向量;
預測模塊,用于將所述多個詞向量按順序輸入至事實描述文本預測網絡模型中,獲得所述待預測案件的事實描述文本預測結果;
其中,所述事實描述文本預測網絡模型是基于刑事法律文書樣本集中的案情描述文本、案情所對應的實際罪名以及所述實際罪名對應的屬性信息訓練得到。
第三方面,本發明實施例提供一種電子設備,包括:
至少一個處理器;以及
與所述處理器通信連接的至少一個存儲器,其中:
所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程序指令能夠執行上述第一方面的各種可能的實現方式中任一種實現方式所提供的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810903715.6/2.html,轉載請聲明來源鉆瓜專利網。





