[發明專利]一種半監督司法實體及事件聯合提取方法有效
| 申請號: | 201911324891.5 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111159336B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 丁鍇;李建元;陳濤;王開紅 | 申請(專利權)人: | 銀江技術股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06F18/241;G06N3/0442;G06N3/048;G06N3/08 |
| 代理公司: | 浙江得恒知識產權代理有限公司 33504 | 代理人: | 趙芳 |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 監督 司法 實體 事件 聯合 提取 方法 | ||
一種半監督司法實體及事件聯合提取方法,其步驟如下:司法文本分詞處理,司法文本數據多特征嵌入,構建司法實體及事件聯合提取模型,提取實體、事件和事件屬性。本發明基于雙向LSTM網絡構建司法實體及事件聯合提取模型,融合多種特征,有效提高提取準確度;同時模型訓練基于數據增廣和批量數據混合的半監督模型,極大提升提取模型的可用性。
技術領域
本發明屬于自然語言處理領域,涉及一種半監督司法實體及事件聯合提取方法。
背景技術
在智能裁判和智能法律咨詢機器人系統中,信息提取技術是最為基礎和核心的部分。它能將非結構化的裁判文書,問答庫等資料轉換成結構化的表、關鍵詞、事件鏈等數據,以便于后續決策算法部署,從而提供更精準的裁判、更切合用戶意圖的回答。例如下面的案例:
{2015年2月11日X時,在平度路金楊路南約10米處,被告薛XX駕駛的牌號為滬L5XXXX小客車與駕駛電動自行車的原告楊XX發生碰撞,造成楊XX受傷、兩車受損的道路交通事故。經上海市公安局浦東分局交通警察支隊認定,薛XX未確保安全,承擔事故主要責任,楊XX未在非機動車道內行駛,承擔次要責任。}
通過手動標注抽取為{原告:楊XX;被告:薛XX;責任認定單位:浦東分局交警支隊;事件:交通事故;事件車輛:小客車,電動自行車;事件后果:原告受傷,兩車受損;事件責任:被告主要責任,原告次要責任},這種結構化數據比上面的非結構化數據更有條理性,也更易進行結果推理。示例中的抽取包含了實體名識別,事件識別及事件屬性(attributes)識別,這三種技術結合在廣義上也被稱為事件提取。目前事件提取的工作主要集中在事件觸發詞及其相關屬性的預測上,而將實體名識別等工作交由手動標注或者現有NER(實體名識別)工具包完成。這種分層流水線式架構會引起誤差放大,例如,實體名提取的錯誤可能會傳播到事件觸發詞及其相關屬性的識別中。最近有工作通過聯合預測實體名,事件觸發詞及其屬性來解決這個問題。但是,深度學習的訓練過程需要大量帶標注的數據,而從零開始進行手動標注成本過高。
發明內容
為了克服現有技術中存在的不足,本發明在于提供了一種避免大量手動標注的問題、極大提高事件提取模型在實際工程上的可用性、降低整體模型的復雜度的半監督司法實體及事件聯合提取方法。
本發明采用的技術方案是:
一種半監督司法實體及事件聯合提取方法,其步驟如下:
(1)司法文本以句為單位進行分詞處理,形成詞列表W=w1,w2,...wi...wn,wi是第i個詞,n是詞的數量;
(2)司法文本數據多特征嵌入,將分詞后的司法文本數據轉換成數字向量,所述多特征嵌入包括字符嵌入、詞嵌入、詞性嵌入和依賴特征嵌入,形成多特征嵌入司法文本向量;
(3)將步驟(2)得到的多特征嵌入司法文本向量輸入經過訓練的司法實體及事件聯合提取模型,提取實體、事件和事件屬性,具體包括:所述多特征嵌入司法文本向量輸入雙向LSTM網絡,定義實體、事件和事件屬性識別任務,在雙向LSTM網絡的輸出層實現實體、事件和事件屬性聯合提取。
進一步,所述司法文本數據多特征嵌入,以詞為基準,將詞對應的詞性特征和依賴特征串聯,并將詞對應的多個字符向量串聯,獲得多特征嵌入司法文本向量,形成多特征嵌入司法文本向量序列V=v1,v2,...vi...vn。
進一步,所述多特征嵌入司法文本向量序列V輸入雙向LSTM網絡,生成隱藏向量序列H=h1,h2,...hi...hn,hi為傳統LSTM沿前后方向傳遞的級聯向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于銀江技術股份有限公司,未經銀江技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911324891.5/2.html,轉載請聲明來源鉆瓜專利網。





