[發(fā)明專利]一種基于注意力機制的序列標注聯(lián)合抽取實體關系的方法在審
| 申請?zhí)枺?/td> | 201811157788.1 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN109408812A | 公開(公告)日: | 2019-03-01 |
| 發(fā)明(設計)人: | 劉博;張佳慧;史超 | 申請(專利權)人: | 北京工業(yè)大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 注意力機制 序列標注 上下文信息 解碼 記憶網(wǎng)絡 實體關系 語句 標注 抽取 預處理 單字 編碼階段 詞語轉換 方向推算 實體標簽 輸入序列 向量表示 信息向量 過去的 輸入層 隱藏層 分詞 去噪 向后 語料 聯(lián)合 攜帶 學習 引入 概率 中文 | ||
本發(fā)明公開了一種基于注意力機制的序列標注聯(lián)合抽取實體關系的方法,先將海量的中文語句語料進行去噪等預處理,然后進行分詞,對單個的詞語轉換成向量表示,這樣作為雙向長短時記憶網(wǎng)絡的輸入對單字進行編碼。使用雙向長短時記憶網(wǎng)絡不僅可以學習長期和短期依賴信息,還可以同時將輸入層的數(shù)據(jù)經(jīng)過向前和向后兩個方向推算,從而學習過去的上下文信息和未來的上下文信息,這對語句的序列標注是非常有益的。然后在解碼層引入注意力機制,使得解碼生成標注序列時可以得到前面編碼階段每個字符隱藏層的信息向量,充分利用輸入序列攜帶的信息。最后通過softmax計算每個詞的實體標簽化概率,可有效得出最終的標注序列并進行實體及其對應關系的組合。
技術領域
本發(fā)明屬于自然語言處理技術領域,尤其涉及一些序列標注和深度學習的注意力機制聯(lián)合抽取非結構文本中的實體關系。
背景技術
隨著大數(shù)據(jù)時代的來臨,各種信息充斥著我們的生活,而大部分都是雜亂無章的數(shù)據(jù)或者非結構的自然語言文本,要從中抽取出有用的信息就顯得尤為重要。信息抽取一般包括兩個緊密聯(lián)系的子任務即實體識別和關系抽取,其根本目標就是從無結構的網(wǎng)絡或領域文本中挖掘命名實體以及實體之間的語義關系,抽取出信息并進行結構化存儲,以便于人們直觀地理解、接受信息。實體關系抽取同時也是自然語言處理中的一項重要任務,它在多個領域都有涉及,例如,領域知識圖譜的構建、信息檢索、機器翻譯、自動問答等,都具有較強的支撐作用,因而具有較大的研究價值與研究意義。
根據(jù)對標注數(shù)據(jù)的依賴程度,實體關系抽取方法可分為有監(jiān)督學習方法、半監(jiān)督學習方法、無監(jiān)督學習方法和開放式抽取方法。有監(jiān)督的學習方法將關系抽取任務當做分類問題,根據(jù)訓練數(shù)據(jù)設計有效的特征,從而學習各種分類模型,然后使用訓練好的分類器預測關系。現(xiàn)有的有監(jiān)督學習關系抽取方法已經(jīng)取得了較好的效果,但它們嚴重依賴詞性標注、句法解析等自然語言處理標注提供分類特征。而自然語言處理標注工具往往存在大量錯誤,這些錯誤將會在關系抽取系統(tǒng)中不斷傳播放大,最終影響關系抽取的效果。最近,很多研究人員開始將深度學習的技術應用到關系抽取中。Rink等人首先提取出實體,然后識別它們之間的關系,這個分離的框架使得兩個任務都易于處理并且更加靈活。Socher等人提出使用遞歸神經(jīng)網(wǎng)絡和句法結構來解決關系抽取問題。該方法通過遞歸神經(jīng)網(wǎng)絡,首先對語句進行句法解析并構造出一個句法樹,按照語句的句法結構迭代合并,最終得到該語句的向量表示。該方法能夠有效地考慮語句的句法結構信息,但無法很好地考慮兩個實體在語句中的位置和語義信息。Zeng等人提出采用卷積神經(jīng)網(wǎng)絡進行實體關系抽取。他們將詞的位置向量和詞向量作為卷積神經(jīng)網(wǎng)絡的輸入,并在特征中加入實體的位置向量和其他相關的詞匯,使得語句中的實體信息能夠被較好地應用到關系抽取中。但是以上這種將實體識別和關系抽取分開實現(xiàn)的方法忽視了兩者之間的內在聯(lián)系。Zheng等人提出了一種端到端的實體關系聯(lián)合抽取方法,將聯(lián)合抽取轉換成序列標注問題,通過長短時記憶網(wǎng)絡對問句進行編碼和解碼,并添加偏置損耗最終得到標注序列。這種算法充分利用了上下文信息,但是應用在英文數(shù)據(jù)集上,與中文語料有很大的不同,并且當輸入序列非常長時模型難以學到合理的向量表示,對所有的上下文信息沒有區(qū)分,這就限制了模型的性能,導致模型的效果較差。
發(fā)明內容
本發(fā)明要解決的技術問題是,提出一種基于注意力機制(ATT)的序列標注聯(lián)合抽取實體關系的方法,首先根據(jù)Zheng等人提出的新標注模式,將自然語言語句作為Seq2Seq的輸入序列,經(jīng)過embedding層將單詞轉換成向量表示,并使用雙向長短時記憶網(wǎng)絡(LSTM)對其進行編碼,在原標注模式的基礎上加入對關系的標注,然后在同樣使用長短時記憶網(wǎng)絡對進行解碼時加入注意力機制,最后通過softmax層得到標注的序列,并輸出,這樣就可以得到對整個語句的標注序列,便于通過序列的識別抽取實體關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業(yè)大學,未經(jīng)北京工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811157788.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種數(shù)據(jù)處理方法及服務器
- 下一篇:一種文本糾正方法及裝置





