[發明專利]一種多特征雙向門控領域專家實體抽取方法及系統有效
| 申請號: | 202010824303.0 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN112101028B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 李翔;張柯文;朱全銀;馬甲林;王媛媛;方強強;丁行碩;成潔怡;沈天宇 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/216;G06F40/30;G06F40/117;G06F16/35 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 顏盈靜 |
| 地址: | 223003 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 雙向 門控 領域 專家 實體 抽取 方法 系統 | ||
本發明公開了一種多特征雙向門控領域專家實體抽取方法及系統。該方法首先通過構建領域專家語料庫以訓練實體抽取模型;接著,使用BERT方法進行字嵌入表示,對語料庫專業領域詞匯構造要素進行特征分析并提取邊界特征;然后,利用雙向門控神經網絡和注意力機制有效獲取特定詞語長距離依賴關系;最后,結合條件隨機場模型實現命名實體識別,將抽取后的信息建立高質量的實體信息索引項返還WEB應用系統。本發明方法可有效抽取領域專家信息實體,充分利用文本字嵌入特征、邊界特征以及上下文特征以獲得更好的NER性能,從而解決人工特征提取成本高和專業新詞無法識別等問題。
技術領域
本發明屬于自然語言處理和信息抽取技術領域,具體涉及一種多特征雙向門控領域專家實體抽取方法及系統。
背景技術
傳統專家命名實體識別方法存在過度依賴人工特征標注和分詞效果,以及專家簡介中大量專業新詞無法識別等問題。段大高、趙寧、韓忠明等人提出了一種基于規則模型的實體抽取與關系挖掘構建知識圖譜的方法(中國專利ZL201710006826.2),通過將文本信息轉換成詞向量數學信息,然后進行向量相似度比較,并根據數字間的關系,來標注實體間的關系,但這種方法過度依賴人工標注的結果;張力文、程國艮等人提出了一種面向中文專利文本的實體抽取方法和系統(中國專利公開號CN 109101538A),該方法和系統依據詞性規則模板,無需人工標注便可對專利文本中的實體自動進行提取,克服了現有技術嚴重依賴大規模標注語料的缺陷,節省了標注的人力成本,卻依賴于現有規則的制訂,對新詞提取無法識別;牛志超、馬語菡、南海濤等人提出了一種基于BERT算法模型的知識圖譜構建系統(中國專利公開號CN 110866125A),通過使用BERT-bilstm-crf中文命名識別深度學習算法對歸零文檔段落中的數據進行實體提取,雖然模型使用神經網絡之后保證了實體提取的快速性和精準性,但是對專業領域的關鍵詞實體的識別率上還存在挑戰。
雖然上述方法在實體抽取任務上取得了一定效果。然而,傳統專家命名實體識別方法還存在以下問題:
1、存在過度依賴人工特征標注和分詞效果;
2、專家簡介中大量專業新詞無法識別等問題。
發明內容
發明目的:為解決領域專家信息抽取過程中人工特征提取成本高和專業新詞無法識別等問題,本發明提供一種多特征雙向門控領域專家實體抽取方法及系統,充分利用領域專業術語在文檔中的特征,結合門控神經網絡可以從上下文中自動找到更有用的單詞以提取指定類型的關鍵性信息。
技術方案:一種多特征雙向門控領域專家實體抽取方法,包括以下步驟:
步驟1:獲取領域專家語料庫D1∈{d1,d2,...,dN},其中,d為單條領域專家文本,N為語料大小,對領域專家語料庫D1中的語料進行標記,包括將領域關鍵詞實體標記為Key;對標記后的語料庫依次進行字符級切分和標記,完成全分詞標注語料庫D2的構建;
步驟2:定位全分詞標注語料庫D2中標記為Key的領域關鍵詞實體,獲取領域關鍵詞實體的前后向特征,通過前后向特征生成二元共現詞匯組,并利用二元共現詞匯組構建邊界特征向量矩陣E1;將全分詞標注語料庫D2中的語料通過邊界特征向量矩陣E1映射至向量空間,得到邊界特征;
步驟3:對領域專家語料庫D1進行預處理,并采用預處理后的數據對BERT語言模型進行訓練,得到訓練好的BERT語言模型BERT_Model,循環遍歷領域專家語料庫D1中每條領域專家文本,通過BERT_Model得到融合全文語義信息的字特征;
步驟4:拼接邊界特征和字特征,得到基于多特征融合的向量數據集D3;基于雙向門控神經網絡和注意力機制,構建中文領域專家實體抽取模型Model,采用向量數據集D3對中文領域專家實體抽取模型Model進行訓練,得到最終可用的中文領域專家實體抽取模型Model;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010824303.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種剪刀刀柄浸膠設備
- 下一篇:一種樓宇用的廣告機





