[發明專利]一種實現司法文書中要素識別的方法及裝置有效

申請號：	201811497428.6	申請日：	2018-12-07
公開（公告）號：	CN111291570B	公開（公告）日：	2022-07-05
發明（設計）人：	趙耀;陳春磊	申請（專利權）人：	北京國雙科技有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/211;G06K9/62;G06N3/08
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	柳欣;王寶筠
地址：	100086 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種實現司法文書要素識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例公開了一種實現司法文書中要素識別的方法和裝置，具體為，先對該待識別司法文書進行分句處理，獲得該待識別司法文書劃的多個語句，同時獲取該待識別司法文書包括的案由。再提取各句的文本特征，并將每句的文本特征輸入預先生成的案由對應的要素識別模型，從而得到每句對應的第一要素標簽。由于本申請實施例提供的識別方法，可以充分學習第二目標句的文本特征，不再受固定語句、復雜句式的限制，從而可以適用于語義復雜的司法文書。而且預先訓練的要素識別模型是以句子為單位進行訓練生成的，從而可以獲得司法文書中每句對應的要素標簽，提高要素識別的準確性。

技術領域

本申請涉及人工智能技術領域，具體涉及一種實現司法文書中要素識別的方法及裝置。

背景技術

在司法領域，通常會涉及多種類型的司法文書，例如判決書，裁定書，而這類司法文書的內容通常比較長。對于某些案情比較復雜的案件，法院工作者要想迅速從司法文書中抓取案件關鍵信息點需要花費很大的精力和時間，給法院工作者帶來較大的工作壓力。

現有技術中，為便于法院工作者可以迅速從司法文書中獲取要素信息，通過人工抽樣部分司法文書，并從司法文書中抽取關鍵詞，然后通過關鍵詞方法從司法文書中識別要素信息。而此種方法需要人工進行查看、記錄、計算等操作，很難做到大批量的統計，司法文書中通常會有大量當事人口語化的表述，通過關鍵詞識別要素的方法無法適應語義復雜的司法文書，造成司法文書中要素識別不準確。

發明內容

有鑒于此，本申請實施例提供一種實現司法文書中要素識別的方法及裝置，以提高要素識別的準確性。

為解決上述問題，本申請實施例提供的技術方案如下：

一種實現司法文書中要素識別的方法，所述方法包括：

獲取待識別司法文書，對所述待識別司法文書進行分句處理并獲取所述待識別司法文書中包括的案由；

提取所述待識別司法文書中各句的文本特征，所述文本特征包括詞向量、詞性特征向量、依存句法特征向量以及文本主題詞向量中的一種或多種；

將所述待識別司法文書中第一目標句的文本特征輸入預先訓練生成的所述案由對應的要素識別模型，獲得所述第一目標句對應的第一要素標簽，所述第一目標句為所述待識別司法文書中的任意句；

所述案由對應的要素識別模型是根據訓練數據對初始分類模型進行訓練生成的，所述訓練數據包括待訓練司法文書中第二目標句的文本特征以及所述第二目標句對應的要素標簽，所述待訓練司法文書中包括所述案由，所述第二目標句為所述待訓練司法文書中的任意句。

在一種可能的實現方式中，所述方法還包括：

將所述第一目標句與預先建立的所述案由對應的要素正則表達式進行匹配；

將與所述第一目標句匹配的要素正則表達式對應的要素標簽確定為所述第一目標句對應的第二要素標簽。

在一種可能的實現方式中，所述方法還包括：