[發明專利]一種半監督司法實體及事件聯合提取方法有效
| 申請號: | 201911324891.5 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111159336B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 丁鍇;李建元;陳濤;王開紅 | 申請(專利權)人: | 銀江技術股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06F18/241;G06N3/0442;G06N3/048;G06N3/08 |
| 代理公司: | 浙江得恒知識產權代理有限公司 33504 | 代理人: | 趙芳 |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 監督 司法 實體 事件 聯合 提取 方法 | ||
1.一種半監督司法實體及事件聯合提取方法,其步驟如下:
(1)司法文本以句為單位進行分詞處理,形成詞列表W=w1,w2,...wi...,wn,wi是第i個詞,n是詞的數量;
(2)司法文本數據多特征嵌入,將分詞后的司法文本數據轉換成數字向量,所述多特征嵌入包括字符嵌入、詞嵌入、詞性嵌入和依賴特征嵌入,形成多特征嵌入司法文本向量;其中所述司法文本數據多特征嵌入,以詞為基準,將詞對應的詞性特征和依賴特征串聯,并將詞對應的多個字符向量串聯,獲得多特征嵌入司法文本向量,形成多特征嵌入司法文本向量序列V=v1,v2,...vi...,vn;
(3)將步驟(2)得到的多特征嵌入司法文本向量輸入經過訓練的司法實體及事件聯合提取模型,提取實體、事件和事件屬性,具體包括:所述多特征嵌入司法文本向量輸入雙向LSTM網絡,定義實體、事件和事件屬性識別任務,在雙向LSTM網絡的輸出層實現實體、事件和事件屬性聯合提取;其中所述多特征嵌入司法文本向量序列V輸入雙向LSTM網絡,生成隱藏向量序列H=h1,h2,...hi...,hn,hi為多特征嵌入司法文本向量輸入雙向LSTM網絡生成的隱藏向量:
在每個隱藏向量hi中編碼整個句子信息;
所述實體識別任務,表示為:
min(softmax(l(di,hi))-ei)
其中,min表示最小化函數;softmax為柔性最大化函數;l表示線性函數;di為若干詞的多特征嵌入司法文本向量串聯構成的上下文級聯向量;hi為多特征嵌入司法文本向量輸入雙向LSTM網絡生成的隱藏向量;ei為分配給每個詞的實體標簽,所有實體標簽組成實體標簽序列E;
所述事件識別任務,表示為:
min(softmax(l(di,hi))-ti)
其中,min表示最小化函數;softmax為柔性最大化函數;l表示線性函數;di為若干詞的多特征嵌入司法文本向量串聯構成的上下文級聯向量;hi為多特征嵌入司法文本向量輸入雙向LSTM網絡生成的隱藏向量;ti為分配給每個詞的事件標簽,所有事件標簽組成事件標簽序列T;
所述事件屬性識別任務,表示為:
min(softmax(l(di,hi,Bij))-aij),Bij=tanh(μ(hi-hj)+σ)
其中,min表示最小化函數;softmax為柔性最大化函數;l表示線性函數;di為多特征嵌入司法文本向量的上下文級聯向量;hi為多特征嵌入司法文本向量輸入雙向LSTM網絡生成的隱藏向量;aij為事件屬性標簽,所有事件屬性標簽組成事件屬性標簽序列A;Bij為詞列表中兩個詞對應的隱藏向量的相關性,以激活函數tanh表示,μ和σ為可訓練的變量系數;
其中所述司法實體及事件聯合提取模型的訓練步驟,包括:
(a)分別建立實體、事件、事件屬性的類型表和觸發詞匯表;
(b)數據標注:在樣本集抽取固定數量樣本,按照步驟(a)中的實體觸發詞匯表、事件觸發詞匯表及事件屬性類型表,手動標注若干個文本,標注出實體、事件、事件屬性,并將原始文本和標注文本成對形成的數據集分為訓練集和測試集;
(c)所述原始文本按照所述半監督司法實體及事件聯合提取方法進行實體、事件和事件屬性的預測,對應訓練時按批次數據進行聯合概率對數最小化的懲罰函數為:
其中,a,β,γ是系數變量,從數據中學習;Π表示事件間的共生關系使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于銀江技術股份有限公司,未經銀江技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911324891.5/1.html,轉載請聲明來源鉆瓜專利網。





