[發明專利]聯合實體關系抽取方法、裝置及存儲介質在審
| 申請號: | 201910717240.6 | 申請日: | 2019-08-05 |
| 公開(公告)號: | CN110598001A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 金戈 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 11327 北京鴻元知識產權代理有限公司 | 代理人: | 董永輝;陳英俊 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 文本語句 關聯關系 向量 抽取 標簽 神經網絡模型 存儲介質 關系抽取 任務轉換 實體關系 向量分配 語義信息 大數據 三元組 構建 建模 元組 捕獲 圖譜 聯合 角色 | ||
本方案涉及大數據方面,提供一種聯合實體關系抽取方法、裝置及存儲介質,方法包括以下步驟:利用Bi?LSTM模型將文本語句編碼為向量的形式;使用LSTM模型對文本語句形成的向量進行標注,生成標注序列,為每個字的向量分配一個用于提取結果的標簽,標簽由三部分組成,即實體中的字的位置、關聯關系類型和關系角色這三部分;將具有相同關聯關系類型的實體組合成三元組以獲得關系抽取結果。本發明采用Bi?LSTM模型對文本語句進行編碼,提高捕獲每個字的語義信息的有效性。把聯合抽取任務轉換為標注問題,通過標注的形式來提取三元組,能夠簡單地使用神經網絡模型來建模,提高了構建知識圖譜的效率。
技術領域
本發明涉及云技術,具體說,涉及聯合實體關系抽取方法、裝置及存儲介質。
背景技術
傳統的處理這種處理實體和關系抽取的方法是串聯式的。即先抽取實體,然后識別實體間的關系。這種分開來處理的方式比較簡單,而且各個模塊都比較靈活。但是這種方法忽視了兩個任務之間的聯系,實體識別的結果可能會影響關系的抽取。
實體關系抽取作為信息抽取領域的重要研究課題,其主要目的是抽取句子中已標記實體對之間的語義關系,即在實體識別的基礎上確定無結構文本中實體對間的關系類別
串聯抽取方法(分離式抽取模型)將該問題分解為兩個串聯的子任務,即先采用實體識別模型抽取實體,再采用關系抽取模型得到實體對之間的關系,其優勢是便于單獨優化實體識別任務和關系抽取任務,但缺點是它們以獲取三元組的中間產物(實體或者關系類型)為目標,而實體識別的結果會進一步影響關系抽取的結果,導致誤差累積。
發明內容
為解決以上技術問題,本發明提供聯合實體關系抽取方法,應用于電子裝置,包括以下步驟:
步驟S1,利用Bi-LSTM模型將文本語句編碼為向量的形式,生成文本向量;
步驟S2,使用LSTM模型對所述文本向量進行標注,生成標注序列,所述標注序列為所述文本向量中的每個字向量分配一個標簽,其中,用于關系抽取的實體的標簽由三部分組成,即實體中的字的位置、關聯關系類型和關系角色這三部分;
步驟S3,將具有相同關聯關系類型的實體組合成三元組以獲得關系抽取結果。
優選地,步驟S2包括,使用第一符號來分別表示實體中字的位置信息,其中第一符號包括表示實體的開始的字的符號,表示實體的中間的字的符號,表示實體的結束的字的符號,以及表示單個的字的符號;
采用第二符號來分別表示不同的關聯關系類型;
采用第三符號表示不同關系角色;所述關系角色是指三元組中的第一實體或第二實體;采用第四符號標注與抽取關系無關的字。
優選地,所述Bi-LSTM編碼是包括前向的LSTM與后向的LSTM結合來表示文本語句的編碼,文本語句對應有前向和后向的細胞狀態:
對于前向,文本語句按照正序輸入細胞狀態中,得到第一組狀態輸出向量{hL0,hL1,hL2,…hLn};
對于反向,文本語句按照倒序輸入細胞狀態中,得到第二組狀態輸出向量{hR0,hR1,hR2,…hRn};
然后Bi-LSTM模型將前向和后向的向量進行拼接融合得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],…[hLn,hRn]}。
優選地,Bi-LSTM模型的公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910717240.6/2.html,轉載請聲明來源鉆瓜專利網。





