[發明專利]一種基于弱監督學習的聯合信息抽取方法在審
| 申請號: | 202010170467.6 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111367986A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 王嵐熙;姜同強 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/906;G06N5/02 |
| 代理公司: | 武漢尚齊知識產權代理事務所(普通合伙) 42261 | 代理人: | 韓廣 |
| 地址: | 100080*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 聯合 信息 抽取 方法 | ||
1.一種基于弱監督學習的聯合信息抽取方法,其特征在于,包括以下步驟:
S1:收集信息形成訓練語料,再與知識庫中實體對進行匹配,獲取訓練集,對訓練集內信息進行分類,根據其信息包含特征進行標簽標注,再將經過多標簽標注的信息輸入到聯合抽取模型中;
S2:根據所需抽取信息特征標簽在訓練集中進行抽取,獲取目標后對目標進行全部特征標簽標注;
S3:將經過S2步驟獲得的標簽信息放入聯合抽取模型中進行抽取,獲取抽取結果。
2.根據權利要求1所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述S1步驟中,在實體關系抽取中,一般基于兩個實體之間的動詞短語來進行關系分類,對于一個實體對(4,B)以及之間的觸發詞ρ,將其關系的預測過程定義為f(A,B,ρ)→(A,B,R),即通過抽取系統將實體對與其相關的觸發詞映射為某種關系。
3.根據權利要求1所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述S1步驟中,根據待抽取實體信息的先驗知識,預先定義一些標記類,標記元素集合以及集合元素的泛化操作。
4.根據權利要求1所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述對信息進行標簽標注時,采用過濾機制對標注結果進行過濾,降低錯誤標記數量,提高抽取系統的功能,具體包括以下步驟:
A1:給定標記的信息,預測該實例是否表達了某種關系;
A2:對于每一組實體對,預測該實體對是否被標記;
A3:利用負樣例集合來過濾步驟S2中標記的實例。
5.根據權利要求4所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述A1步驟中,通過信息進行改進的分級生成模型參數的學習,即給定一個實例Wrs,表示第s個詞序列是否表達了第r種關系,Wrs是一個二值變量,若Wrs=1表明詞序列s表達了關系r,反之Wrs=0;所述A2步驟中,根據詞序列Wrs中的第i個實體對,預測是否根據知識庫對其進行標記;所述A3步驟中,根據訓練語料進行分析,得出不能表達知識庫中關系但是經常被標錯的實體生成集合,然后利用該集合對A2中預測出的關系進行篩選,經過這兩個過程,有效地降低弱監督學習中被錯誤標記的關系實例。
6.根據權利要求1所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述S1步驟中,所述聯合抽取模型包括用于將高維離散空間的單詞映射到低維連續空間的向量的嵌入層、用于捕獲每個單詞的語義信息的雙向長短期記憶網絡(Bi-LSTM)編碼層、用于標注線性數據序列的條件隨機場(CRF)解碼層以及用于綜合考慮計算區域、所用信息、結構層次三部分特性的復合注意力層。
7.根據權利要求1所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:在實驗過程中,通過兩種方式進行系統性能評估:留存評估和人工評估,統計其準確率、召回率。
8.根據權利要求7所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述留存評估,其具體為:對訓練語料進行隨機劃分,所有的關系實體都需要抽取系統自動的進行識別并與知識庫中的實體進行對比。
9.根據權利要求7所述的一種基于弱監督學習的聯合信息抽取方法,其特征在于:所述人工評估,其具體為:人工選擇出現頻率最高的多種關系進行測試,避免留存評估帶來的噪聲問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010170467.6/1.html,轉載請聲明來源鉆瓜專利網。





