[發明專利]事實描述文本預測方法及裝置有效
| 申請號: | 201810903715.6 | 申請日: | 2018-08-09 |
| 公開(公告)號: | CN110858269B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 劉知遠;涂存超;胡紫昆;李想;孫茂松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06Q10/04;G06Q50/18 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;吳歡燕 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事實 描述 文本 預測 方法 裝置 | ||
1.一種事實描述文本預測方法,其特征在于,包括:
對待預測案件的事實描述文本進行預處理,獲得多個詞向量;
將所述多個詞向量按順序輸入至事實描述文本預測網絡模型中,獲得所述待預測案件的事實描述文本預測結果;
所述將所述多個詞向量按順序輸入至事實描述文本預測網絡模型中,獲得所述待預測案件的事實描述文本預測結果的步驟,進一步包括:
將所述多個詞向量順序輸入至事實描述文本預測網絡模型的長短期記憶循環神經網絡層中,輸出案件文本特征;
將所述案件文本特征輸入至事實描述文本預測網絡模型的注意力層,輸出所述待預測案件所對應的罪名的各屬性表示向量;所述注意力層利用注意力機制引入事實描述文本的罪名屬性信息,用于對所述案件文本特征所隱含的罪名屬性信息進行提取;
將所述案件文本特征輸入至事實描述文本預測網絡模型的池化層獲得文本表示向量,將所述待預測案件所對應的罪名的各屬性表示向量的平均值與所述文本表示向量進行拼接,獲得案件表示向量;
將所述案件表示向量輸入至事實描述文本預測網絡模型的線性層和softmax層獲得待預測案件的事實描述文本預測結果;
其中,所述事實描述文本預測網絡模型是基于刑事法律文書樣本集中的案情描述文本、案情所對應的實際罪名以及所述實際罪名對應的屬性信息訓練得到。
2.根據權利要求1所述的方法,其特征在于,所述對待預測案件的事實描述文本進行預處理,獲得多個詞向量的步驟具體為:
對待預測案件的事實描述文本進行分詞處理;
利用word2vec工具,獲取所述待預測案件的事實描述文本中的每個詞語所對應的詞向量。
3.根據權利要求1所述的方法,其特征在于,所述將所述案件文本特征輸入至所述事實描述文本預測網絡模型的注意力層,輸出所述待預測案件所對應的罪名的各屬性表示向量的步驟,具體為:
根據所述案件文本特征,利用注意力機制分別計算所述待預測案件所對應的罪名的各屬性表示向量gk:
其中,ht表示案件文本特征中的第t個案件文本特征向量,gk表示所述待預測案件所對應的罪名的第k個屬性的表示向量,uk表示通過訓練獲得的第k個屬性對應的特征向量參數,Wα表示通過訓練獲得的所有罪名屬性對應的矩陣參數,αk,t表示第t個案件文本特征向量在計算第k個屬性表示時的權重。
4.根據權利要求1所述的方法,其特征在于,所述事實描述文本預測網絡模型采用如下方法訓練得到:
構建刑事法律文書訓練樣本集,所示刑事法律文書訓練樣本集中的每個樣本均包括經過預處理的案情描述文本、案情所對應的實際罪名以及所述實際罪名對應的屬性信息;
利用長短期記憶循環神經網絡對所述刑事法律文書訓練樣本集中的案情描述文本進行特征提取,獲得案件文本特征;
將所述案件文本特征輸入至注意力層,獲得所述案情描述文本所對應的罪名的各屬性表示向量,并將所述各屬性表示向量輸入至第一線性層和第一softmax層獲得罪名屬性的預測值;
將所述案件文本特征輸入至池化層獲得文本表示向量,將所述罪名的各屬性表示向量的平均值與所述文本表示向量進行拼接,獲得案件表示向量,并將所述案件表示向量輸入至第二線性層和第二softmax層,獲得所案情描述文本的事實描述文本預測結果;
定義目標優化函數由罪名預測損失函數和屬性預測損失函數兩部分組成,所述罪名預測損失函數通過計算事實描述文本預測結果與實際罪名的交叉熵得到,所述屬性預測損失函數通過計算罪名屬性的預測值與實際罪名所對應的屬性信息的交叉熵得到;
利用隨機梯度下降法對所述目標優化函數進行優化訓練,當達到訓練結束條件時,獲得訓練完成的事實描述文本預測網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810903715.6/1.html,轉載請聲明來源鉆瓜專利網。





