[發明專利]一種類案推薦方法、系統及裝置在審
| 申請號: | 201811591283.6 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109783640A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 方清 | 申請(專利權)人: | 廣州恒巨信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 胡輝;何文聰 |
| 地址: | 510630 廣東省廣州市天河*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 最終相似度 標簽 語料庫 權重 系統及裝置 相似度 排序 裁判 標簽模型 提取特征 語義 精準度 應用 | ||
本發明公開了一種類案推薦方法、系統及裝置,方法包括:獲取裁判文書,并對裁判文書進行處理得到案例語料庫;計算新案例與案例語料庫中每個案例的相似度;根據新案例提取特征標簽,并計算得到標簽權重總值;根據新案例與案例語料庫中每個案例的相似度和標簽權重總值,計算得到最終相似度;根據最終相似度進行排序,得到類案推薦列表。本發明通過提取標簽算得標簽權重總值,進而計算得到最終相似度,最后根據最終相似度進行排序列表,克服了原來的標簽模型沒有語義的缺點,大大提高了類案推薦的精準度。本發明可廣泛應用于類案推薦領域中。
技術領域
本發明涉及推薦技術領域,尤其涉及一種類案推薦方法、系統及裝置。
背景技術
現有的類案推薦系統在實踐中主要有兩種形態:第一種是自動推送,自動推送是技術人員依托網上公布的裁判文書建立數據庫,在此基礎上對相關案件“貼標簽”,將每個具體案例結構化為數十個法律標簽。再將起訴書接入系統,與系統中的標簽對比,推送標簽最相似的案例;第二種是主動搜索,主動搜索是指法官對系統自動推送的類案不滿意時,自主選取系統中羅列出的標簽,在此基礎上輸入關鍵詞,通過一整套的標簽和自主搜索,在數據庫中檢索符合條件的類案。但是這兩種推薦系統普遍存在推送類案不準確、案情細節不匹配等問題。
發明內容
為了解決上述技術問題,本發明的目的提供一種能提高推薦精準度的類案推薦方法、系統及裝置。
本發明所采取的技術方案是:
一種類案推薦方法,包括以下步驟:
獲取裁判文書,并對裁判文書進行處理得到案例語料庫;
計算新案例與案例語料庫中每個案例的相似度;
根據新案例提取特征標簽,并計算得到標簽權重總值;
根據新案例與案例語料庫中每個案例的相似度和標簽權重總值,計算得到最終相似度;
根據最終相似度進行排序,得到類案推薦列表。
作為所述的一種類案推薦方法的進一步改進,所述的獲取裁判文書,并對裁判文書進行處理得到案例語料庫,這一步驟具體包括:
獲取裁判文書,并從裁判文書中提取得到各案例的訴訟案情信息;
對訴訟案情信息進行分詞處理,得到案例文件語料;
調用doc2vec模型對案例文件語料進行訓練,得到詞向量、softmax參數和文檔向量,形成得到案例語料庫。
作為所述的一種類案推薦方法的進一步改進,所述的計算新案例與案例語料庫中每個案例的相似度,這一步驟具體包括:
根據案例語料庫的詞向量和softmax參數,計算得出新案例的文檔向量;
計算新案例的文檔向量與案例語料庫中每個案例的文檔向量之間的計算歐式距離,得到新案例與案例語料庫中每個案例的相似度。
作為所述的一種類案推薦方法的進一步改進,所述的根據新案例提取特征標簽,并計算得到標簽權重總值,這一步驟具體包括:
根據新案例的訴訟案情信息提取特征標簽,并對其標準格式化,得到新案例的標簽值;
根據預設的權重定義規則和新案例的標簽值,對新案例的標簽權重因子進行設定;
根據新案例的標簽值和標簽權重因子,計算得到標簽權重總值。
作為所述的一種類案推薦方法的進一步改進,所述的最終相似度的計算公式為:
Wt=0.5*W1+(1-0.5)*(1/(1+lnW2));
其中,Wt表示最終相似度,W1表示相似度,W2表示標簽權重總值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州恒巨信息科技有限公司,未經廣州恒巨信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811591283.6/2.html,轉載請聲明來源鉆瓜專利網。





