[發明專利]一種基于數據增強與主動學習的小樣本命名實體識別方法有效
| 申請號: | 202110688053.7 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113361278B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 黃震;李青青;竇勇;胡彪;金持;潘衡岳;汪昌健 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 湖南企企衛知識產權代理有限公司 43257 | 代理人: | 任合明 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 增強 主動 學習 樣本 命名 實體 識別 方法 | ||
本發明公開了一種基于數據增強與主動學習的小樣本命名實體識別方法,目的是提升主動學習方法早期識別未標注數據的F1值,且針對多種查詢策略有效。技術方案是先構建結合數據增強的主動命名實體識別系統;準備訓練命名實體識別模型所需的數據集。主動學習模塊、數據標注模塊、數據增強模塊采用多輪循環的方式對命名實體識別模塊中的命名實體識別模型進行訓練并對數據進行標注和增強。訓練后的命名實體識別模塊對測試數據池T內的文本進行命名實體識別,得到預測的標簽序列。本發明實現了在早期參與訓練的標注數據少時快速提高命名實體識別的效果,使得相比原來的主動學習下的命名實體識別方法,多種查詢策略的F1值都有提升。
技術領域
本發明涉及命名實體識別領域,特指一種基于數據增強與主動學習的小樣本命名實體識別方法。
背景技術
自然語言是指中文、英語、西班牙語、法語、德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言處理,就是利用計算機的計算能力對人類的自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章這些不同層次的信息,進行輸入、輸出、識別、分析、理解、生成操作,并對這些信息進行加工。進而實現人機或是機器與機器間的信息交流,是全球人工智能界、計算機科學和語言學界所共同關注的重要問題。人工智能技術的發展與硬件設備計算性能的提升,推動了自然語言處理領域文本分類、信息抽取、知識圖譜等多項技術的深入研究。
命名實體識別,又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。命名實體識別是自然語言處理領域的一個重要分支,是知識圖譜,信息抽取等多項任務的基礎,因而成為熱門研究的課題之一。
從早期基于詞典和規則的方法,到傳統機器學習的方法,到近年來基于深度學習的方法被應用于命名實體識別,命名實體識別的效果在不斷提升。通常,命名實體識別的效果使用F1度量。(為了能夠評價不同算法的優劣,在準確率(表示預測為正的樣本中有多少是真正的正樣本)和召回率(表示樣本中的正例有多少被預測正確)的基礎上提出了F1值的概念,來對準確率和召回率進行整體評價。F1的定義如下:F1值=正確率×召回率×2/(正確率+召回率)。)然而,在處理小樣本數據時,由于參與訓練的標注樣本有限,很難獲得有效的模型,深度學習的優勢將減弱。同時,大量手工標注的樣本代價昂貴。因此,如何提升小樣本數據下的命名實體識別效果(即F1值增大)是一個重要研究點。
一種提升小樣本數據下的命名實體識別效果的有效解決方案是主動學習,它可以通過多輪查詢策略來挑選更有價值的標注數據進行訓練,標注數據的數量相同時,使用主動學習后,訓練得到的命名實體識別模型F1值更高。
主動學習應用于命名實體識別時的對不同數據集的普適性是一個重要研究點。現有的主動學習方法應用于命名實體識別時,針對不同的數據集提出了不同的查詢策略。但查詢策略不具備普適性,查詢策略需要提前確定,訓練過程中不能調整。如果查詢策略在一種數據集上訓練得到的命名實體識別模型F1值有提升,更換數據集后,可能沒有提升甚至會下降。同時,主動學習依賴于多輪循環的訓練,因此早期(即多輪循環初期)參與訓練的標注數據通常較少,導致命名實體識別模型受標注數據限制,F1值的提升慢。
因此,如何充分利用標注數據,在早期參與訓練的標注數據少時也能快速提高命名實體識別的效果,提供一種主動學習框架下的命名實體識別方法,使其對多種查詢策略得到的模型F1值都有提升,是本領域技術人員正在探討的熱點問題。
發明內容
本發明要解決的技術問題是針對早期參與訓練的標注數據較少,命名實體識別模型受標注數據限制,識別未標注數據的F1值低的缺陷,提供一種基于數據增強與主動學習的小樣本命名實體識別方法。此方法基于現有的主動學習框架,利用數據增強,使得相比原來的主動學習框架,不管采用常用查詢策略中的哪一種,命名實體識別F1值都有提升。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110688053.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





