[發明專利]一種基于相似文本的案件繁簡分流方法有效
| 申請號: | 202010160701.7 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111400445B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 張建悅;張吉豫;鄧矜婷;熊丙萬 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/205;G06N3/0464;G06N3/044;G06Q50/18 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 冀志華 |
| 地址: | 100872 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相似 文本 案件 繁簡 分流 方法 | ||
1.一種基于相似文本的案件繁簡分流方法,其特征在于,包括以下步驟;
1)建立數據庫,并在數據庫中儲存樣本案件的文本信息;
2)獲取待分流案件的文本信息,并與數據庫中的各樣本案件進行相似度分析,得到待分流案件的相似度比例值;
3)根據得到的相似度比例值以及預設的相似度比例閾值,對待分流案件進行繁簡分流;
所述步驟2)中,獲取待分流案件的文本信息,并與數據庫中的各樣本案件進行相似度分析,得到待分流案件的相似度比例值的方法,包括以下步驟:
2.1)獲取待分流案件的文本信息,并與數據庫中的任一樣本案件進行比較,計算待分流案件與該樣本案件的文本相似度;
2.2)設定相似度閾值,若待分流案件與該樣本案件的文本相似度不小于相似度閾值,則認為該樣本案件為待分流案件的相似文本案件;
2.3)重復步驟2.1)~2.2),判斷數據庫中所有樣本案件是否為待分流案件的相似文本案件,得到所有樣本案件中的相似文本案件的數量;
2.4)計算相似文本案件在所有樣本案件中所占的比例,作為待分流案件的相似度比例值;
所述步驟2.1)中,獲取待分流案件的文本信息,并與數據庫中的任一樣本案件進行比較,計算待分流案件與該樣本案件的文本相似度的方法,包括以下步驟:
2.1.1)建立文本相似度計算模型,所述文本相似度計算模型包括嵌入層、長短期記憶神經網絡層、卷積神經網絡層、額外特征層和輸出層;
2.1.2)將待分流案件與該樣本案件的文本信息分別映射到嵌入層,得到待分流案件和樣本案件的文本特征矩陣,并輸出到長短期記憶神經網絡層和卷積神經網絡層;
2.1.3)在長短期記憶神經網絡層中分別提取待分流案件與樣本案件的第一文本特征信息,同時在卷積神經網絡層中分別提取待分流案件與樣本案件的第二文本特征信息,并將長短期記憶神經網絡層與卷積神經網絡層中提取得到的第一文本特征信息和第二文本特征信息均輸出到額外特征層;
2.1.4)在額外特征層中,分別根據待分流案件和樣本文件的第一文本特征信息和第二文本特征信息得到二者的總的文本特征信息,根據二者的總的文本特征信息,計算得到待分流案件和樣本文件的法律重疊詞分數和法律要素對比向量;
2.1.5)在輸出層中,綜合考慮待分流案件的文本特征信息、樣本案件的文本特征信息、法律重疊詞分數及法律要素對比向量,計算得到待分流案件與樣本案件的文本相似度;
所述步驟2.1.2)中,將待分流案件與該樣本案件的文本信息分別映射到嵌入層的高維向量空間,得到待分流案件和樣本案件的文本特征矩陣的方法,包括以下步驟:
首先,去掉待分流案件和樣本案件中對后續處理可能造成干擾的字符;
其次,根據預設的文本向量維度閾值,對去除干擾后的待分流案件和樣本案件進行處理,使得待分流案件和樣本案件的向量維度統一;
最后,使用Google中的Word2vec模型和相應的參數,將待分流案件和樣本案件映射成數值矩陣,作為待分流案件和樣本案件的文本特征矩陣;
所述步驟2.1.4)中,獲取待分流案件和樣本文件的總的特征向量信息、法律重疊詞分數和法律要素對比向量的方法為:
首先,將長短期記憶神經網絡層與卷積神經網絡層的輸出結果拼接到一起,得到待分流案件和樣本文件的總的特征向量,即文本特征信息;
然后,基于待分流案件和樣本文件的文本特征信息,利用法律語言庫,得到二者的法律重疊詞分數;
最后,根據法律文本的描述,按照法律上的規則提取相應的事實要素,比較待分流案件和樣本文件描述的事實要素是否相同,形成一個0-1向量,作為法律要素對比向量;
所述基于待分流案件和樣本文件的文本特征信息,利用法律語言庫,得到二者的法律重疊詞分數的方法,包括以下步驟:
首先,根據待分流案件與樣本案件的文本特征信息,獲得二者的文本特征信息中的重疊詞;
其次,根據法律語言庫,去除重疊詞中不在法律語言庫中的部分,得到的法律重疊詞;
最后,計算法律重疊詞占二者的文本特征信息中的總詞數的比例,該比例即為法律重疊詞分數。
2.如權利要求1所述的一種基于相似文本的案件繁簡分流方法,其特征在于,所述步驟2.2)中,所述相似度閾值為0.5。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010160701.7/1.html,轉載請聲明來源鉆瓜專利網。





