[發明專利]案件處理模型的訓練方法、案件文本處理方法及相關裝置有效
| 申請號: | 202010610510.6 | 申請日: | 2020-06-29 |
| 公開(公告)號: | CN111737416B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 熊永福 | 申請(專利權)人: | 重慶紫光華山智安科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06F40/30 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 李莎 |
| 地址: | 400700 重慶市*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 案件 處理 模型 訓練 方法 文本 相關 裝置 | ||
本發明實施例提出一種案件處理模型的訓練方法、案件文本處理方法及相關裝置,涉及自然語言處理領域。該方法通過將案件文本的小類分類和實體抽取兩個任務聯合訓練,實現了共享特征抽取層的結構和權重參數,在增強模型泛化能力的同時減少了模型總參數,達到了僅使用一份訓練資源完成文本分類與實體抽取兩類任務的目的,相對于將小類分類和實體抽取兩個任務獨立實施的方式,無論是模型開發效率、資源利用率,還是后期的模型迭代升級、模型維護成本的節約等方面,都有較大幅度的提升。
技術領域
本發明涉及自然語言處理領域,具體而言,涉及一種案件處理模型的訓練方法、案件文本處理方法及相關裝置。
背景技術
在公安網的大數據與智能化應用的建設當中,如何從大量的歷史案件信息當中挖掘出對當前案件偵破有意義價值的信息是案件快速偵破的關鍵。
目前,對于公安網的歷史案件,除了某些易于采集的字段,如案發時間、案發地點、報案人等是存儲的結構化信息以外,大多數存儲的僅僅是案情的文本描述信息,難以得到充分利用;在案件的分類處理中,也僅是簡單的人工大類劃分,不利于實際案件利用過程中,案件合并、案件推薦、智能搜索、案件畫像等技術的實現。
發明內容
有鑒于此,本發明的目的在于提供一種案件處理模型的訓練方法、案件文本處理方法及相關裝置,以實現案件文本的小類劃分以及案件實體的抽取。
為了實現上述目的,本發明實施例采用的技術方案如下:
第一方面,本發明實施例提供一種案件處理模型的訓練方法,所述方法包括:
獲取訓練樣本數據;所述訓練樣本數據包括案件文本和所述案件文本對應的標注結果,所述標注結果包括所述案件文本所屬小類的類別標注結果和所述案件文本中的實體對應的實體標注結果;
將所述訓練樣本數據輸入預先建立的案件處理模型,利用所述案件處理模型的特征抽取層輸出文本特征向量;所述文本特征向量包括文本整體語義的特征表示;
將所述文本整體語義的特征表示輸入所述案件處理模型的分類層,得到所述案件文本所屬小類的類別預測結果;
將所述文本特征向量輸入所述案件處理模型的實體抽取層,得到所述案件文本中的實體對應的實體預測結果;
依據所述類別標注結果、實體標注結果、類別預測結果和實體預測結果更新所述案件處理模型的參數,以得到訓練后的案件處理模型。
在可選的實施方式中,所述文本特征向量還包括所述案件文本中每個文本字符對應的特征表示,所述實體抽取層包括激活層和CRF層,所述將所述文本特征向量輸入所述案件處理模型的實體抽取層,得到所述案件文本中的實體對應的實體預測結果的步驟包括:
利用所述激活層對所述案件文本中每個文本字符對應的特征表示進行標簽分類,得到分類結果;所述分類結果包括每個文本字符對應的特征表示屬于不同類別的標簽的概率,所述不同類別的標簽包括實體的開始部分、實體的非開始部分和非實體部分;
將所述分類結果輸入所述CRF層,利用所述CRF層學習到的轉移矩陣獲得不同標簽之間的關聯關系,進而得到所述案件文本中的實體對應的實體預測結果;其中,所述轉移矩陣中的每個元素表示一個標簽轉移到另一個標簽的概率。
在可選的實施方式中,所述將所述分類結果輸入所述CRF層的步驟之后,所述方法還包括:
對所述CRF層的學習率進行擴張處理。
在可選的實施方式中,所述依據所述類別標注結果、實體標注結果、類別預測結果和實體預測結果更新所述案件處理模型的參數,以得到訓練后的案件處理模型的步驟包括:
根據所述類別標注結果和所述類別預測結果計算所述分類層的損失函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶紫光華山智安科技有限公司,未經重慶紫光華山智安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010610510.6/2.html,轉載請聲明來源鉆瓜專利網。





