[發明專利]一種特定領域命名實體識別方法在審
| 申請號: | 202210003814.5 | 申請日: | 2022-01-05 |
| 公開(公告)號: | CN114330349A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 宋曉;李曉慶;崔勇;周軍華 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特定 領域 命名 實體 識別 方法 | ||
本發明公開了一種特定領域命名實體識別方法,包括以下步驟:步驟一,獲取領域知識庫,使用短語挖掘對文本語料進行高質量領域詞表構建,補充現有知識庫內容;步驟二,采用遠程監督,將文本語料對齊領域知識庫內容進行實體類型的自動標注;步驟三,構建與訓練命名實體識別模型,完成特定領域文本中細粒度命名實體的識別與提取。本發明所公開的方法,基于遠程監督獲取特定領域標注語料,將命名實體識別任務分為候選實體獲取與候選實體類型判斷兩個階段,充分利用領域知識庫中實體的邊界信息與實體的類別信息,彌補了在特定領域上缺乏足夠多的標注數據且人工標注成本高的缺點,并且在一定程度上避免因細粒度實體類型數量多所產生的實體識別效果一般的問題,從而提高了命名實體識別的性能。
技術領域
本發明涉及自然語言處理領域,具體涉及一種特定領域命名實體識別方法。
背景技術
命名實體識別(Named Entity Recognition,NER)是自然語言處理領域的基本任務之一,識別文本中具有特定意義實體。在特定領域中,如醫療、軍事等,因缺乏大規模的標注數據集完成深度學習模型的訓練,很難將其直接應用。
當前針對匱乏資源命名實體識別問題主要采用遷移學習、遠程監督方法。遷移學習利用領域相似性,在領域之間進行數據共享和模型共建,利用無監督模式通過降低統計學習的期望誤差來對未標記樣本進行優化選擇,有效減少標注數據的工作量;遠程監督利用外部知識庫和本體庫來補充標注實體,將文本序列與知識庫詞典中的條目進行匹配,自動為帶有命名實體類別的大量原始語料添加標簽。以上方法可以較好地解決匱乏資源命名實體識別問題,在特定領域中,遠程監督所需的外部知識庫相較于遷移學習中相似領域的判定及其標注數據的獲取較易進行,但在具有大量實體類型的特定領域文本數據上,現有遠程監督模型方法對于類別信息默認為互相獨立的去分類,存在命名實體識別效果一般的問題。
本發明所提出的一種特定領域命名實體識別方法,充分利用領域知識庫中實體的邊界信息與實體的類別信息,采用兩階段方式,將命名實體識別分為候選實體獲取與候選實體類型判斷,引入線性映射函數和相似度計算,充分發揮實體類別間的層級和語義相關的特點,彌補了在特定領域上缺乏足夠多的標注數據且人工標注成本高的缺點,并且在一定程度上避免因細粒度實體類型數量多所產生的命名實體識別效果一般的問題,從而提高了命名實體識別的性能,取得了很好的效果。
發明內容
(1)要解決的技術問題
在實現特定領域的命名實體識別時仍存在以下難點問題:缺乏足夠多的標注數據,人工標注的成本很高,需要耗費大量的時間以及精力,實體標注難度大;相較于通用領域的命名實體識別任務中的實體類別,特定領域存在實體類型層次多,實體類型粒度細,實體類型數量多,導致命名實體識別效果一般的問題。
(2)技術方案
為解決以上技術問題,本發明提供了一種特定領域命名實體識別方法,其主要特征在于,包括以下步驟:
步驟一:獲取領域知識庫,使用短語挖掘對文本語料進行高質量短語詞表構建,補充現有特定領域知識庫的內容。
步驟二:采用遠程監督方法對文本語料進行標注,將領域知識庫中實體所對應的類型作為該實體在文本中的類型。
步驟三:構建特定領域細粒度命名實體識別模型,將標注好的文本語料分為訓練集、驗證集與測試集,對模型進行訓練,最后使用訓練好的模型獲取文本中細粒度實體類型的實體集合獲取。
所述特定領域細粒度命名實體識別模型包含兩階段:候選實體獲取與候選實體類型判斷。候選實體獲取階段獲取實體邊界信息,從而獲取候選實體。主要包含預訓練編碼層完成文本語料中原始字、詞向量形式的轉化;雙向長短記憶網絡完成文本全局上下文特征;邏輯回歸分類層完成候選實體邊界的判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210003814.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種PE管的制造工藝
- 下一篇:一種心理教育學用環境模擬裝置





