[發明專利]一種司法文本中經濟事件的抽取方法及系統有效
| 申請號: | 202010164540.9 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111460830B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 林友芳;萬懷宇;韓升;武志昊;王晶;張碩 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06F40/289;G06F40/284;G06N3/08;G06N3/04 |
| 代理公司: | 北京紅福盈知識產權代理事務所(普通合伙) 11525 | 代理人: | 陳月福 |
| 地址: | 100044 北京市海淀區上園*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 司法 文本 經濟 事件 抽取 方法 系統 | ||
本發明提供了一種司法文本中經濟事件的抽取方法,用以解決現有技術中司法文本中事件抽取效率低下的問題。所述經濟事件抽取方法首先對預選的司法文本數據集進行數據預處理,得到向量化表示的學習數據和文本全局特征,對第一深度學習模型進行訓練,得到文本序列對應的實體類別序列;再根據學習數據和實體類別序列,將文本全局特征與文本序列特征進行融合,訓練第二深度學習模型,利用第二深度學習模型進行經濟事件抽取。本發明圍繞深度學習模型,通過融合文本全局特征和文本序列特征,有效地對司法文本中的經濟事件進行抽取,準確率高;同時具有較強的泛化以及自學習能力,可用于司法文本摘要、當事人經濟事件追蹤,減輕相關法務人員的工作壓力。
技術領域
本發明屬于智慧司法數據處理領域,具體涉及一種司法文本中經濟事件的抽取方法及系統。
背景技術
隨著計算機的普及和發展,智能化過程已推進到生活及工作的各個領域,智慧司法的建設離不開司法信息化。在司法的信息化進程中,充分利用各級人民法院儲存著的大量的司法文本、案件卷宗信息,將客觀發生的事件從長篇幅、非結構化的司法文本中抽取出來,有助于司法人員快速理清案件事實;同時,所抽取出的半結構化事件集,可以進一步為司法文本摘要、當事人資產畫像等任務提供輔助,推進智慧司法建設。現有技術中,司法文本經濟事件抽取,多由司法工作人員手動整理,尚不存在成熟的經濟事件抽取模型,阻礙了司法效率地進一步提升。
發明內容
本發明實施例的目的是提高司法文本經濟事件的抽取效率,推進智慧司法建設。為了實現上述目的,本發明實施例提供了一種司法文本中經濟事件的抽取方法及系統,融合司法文本的全局信息和序列信息,通過反向傳播訓練進行學習迭代,設計并實現用于司法文本序列標注的深度學習策略,實現司法文本中經濟事件的自動抽取,提高事件抽取效率及準確率。
本發明實施例所采用的技術方案如下:
第一方面,本發明實施例提供了一種司法文本中經濟事件的抽取方法,所述抽取方法包括如下步驟:
步驟S1,對預選的司法文本數據集進行數據預處理,得到向量化表示的學習數據和文本全局特征;
步驟S2,以所述學習數據為訓練材料對第一深度學習模型進行訓練,學習得到文本序列對應的實體類別序列;
步驟S3,根據所述學習數據和實體類別序列,訓練第二深度學習模型,學習得到文本序列特征,并在訓練過程中將所述文本序列特征與所述文本全局特征進行融合,以融合后的特征作為訓練材料完成對第二深度學習模型的訓練;
步驟S4,將待處理的司法文本輸入訓練完成的第二深度學習模型,對司法文本進行經濟事件抽取。
作為本發明的一個優選實施例,所述方法還包括:
步驟S5,將步驟S4中待處理的司法文本,完成抽取后,加入到步驟S1中預選的司法文本數據集中,返回步驟S1。
作為本發明的一個優選實施例,所述步驟S1中的數據預處理,包括如下步驟:
步驟S11,對所述司法文本數據集中的司法文本進行分句、分詞,得到每個句子的字段;
步驟S12,將整體司法文本和所述字段進行向量化表示,得到深度學習模型的學習數據。
作為本發明的一個優選實施例,所述步驟S2中,由隨機初始化方式得到實體類別序列的向量化表示。
作為本發明的一個優選實施例,所述第二深度學習模型,采用結合TransformerEncoder序列特征學習與注意力機制特征融合的深度學習事件抽取模型。
作為本發明的一個優選實施例,所述步驟S3進一步包括如下步驟:
步驟S31,向第二深度學習模型中輸入所述學習數據捕捉文本序列特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164540.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息處理方法、裝置、電子設備和存儲介質
- 下一篇:數據同步方法和裝置





