[發明專利]一種命名實體識別方法、裝置、設備及存儲介質有效
| 申請號: | 202110795179.4 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113420561B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 鐘韻辭;萬建偉;孫科;賀凱;余非;裴衛民;馮文亮 | 申請(專利權)人: | 上海浦東發展銀行股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06F40/216;G06F16/35;G06N3/04 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 趙翠香 |
| 地址: | 200000 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 命名 實體 識別 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種命名實體識別方法、裝置、設備及存儲介質。該方法包括:獲取待識別字符的圖特征向量;將所述待識別字符的圖特征向量輸入目標命名實體識別模型,得到所述待識別字符的圖特征向量對應的實體類別,通過本發明的技術方案,以解決命名實體識別模型初始特征缺少領域字符實體關系的問題,同時改善訓練樣本不均帶來的個別實體被忽略問題。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種命名實體識別方法、裝置、設備及存儲介質。
背景技術
命名實體識別是信息抽取任務的一種子任務。信息抽取即從非結構化的數據中(如文本)中提取出結構化的信息及特定的關系,其中,命名實體識別是要確定抽取出的信息實體的名稱(類別),并同時確定出命名實體的范圍與邊界。對于這一應用問題,現有的解決方案有如下幾大類:
1.基于規則的方法:對于特定知識領域下文本中的命名實體識別任務,基于規則的方法通常是讓該領域的專家制定出一套識別規則,例如關鍵字/詞,結構形式等,從目標文本中篩選出符合規則的實體。
2.傳統機器學習方法:這類方法主要是采用對已有數據中的實體進行標注,輔以按照一定規則(例如幾種詞袋模型)對數據中文本要素(字、詞等)生成的數值向量特征,再用數據訓練統計機器學習模型,例如最大熵模型(MEME)、隱馬爾可夫模型(HMM)、條件隨機場模型(CRF)等,最后使用訓練完成的模型預測新數據中存在的實體。
3.深度學習方法:這類方法是目前的主流。特點是訓練各種神經網絡,后進行預測。實際上,這類方法可視為對傳統機器學習方法中數值向量特征生成方式的增強。這是因為傳統方式中的各種模型往往是神經網絡最后進行預測的部分,而在預測之前的神經網絡結構事實上完成的任務是生成信息表達能力更強的向量特征。比較典型的方法是各種循環神經網絡(如LSTM)加上預測模型(如CRF)。
現有技術的缺點概括如下:
首先,基于規則的方法編制出的規則通常依賴于文本所屬的領域以及撰寫的風格,這些要素在不同文本中高度不穩定不一致,而規則缺乏靈活性,難以覆蓋所有可能出現的情況,泛化能力差。
其次,傳統機器學習方法雖然能從大量數據中學習到適應性相對較強的判斷邏輯,但由于其特征表達能力尚有欠缺,當數據量增加、語言風格頻繁變化時,常規特征工程難以充分表達出文本之間的共性與差異,進而影響方法整體的效果。
最后,基于深度學習的方法作為當前的主流,將傳統分類器模型融入到神經網絡模型中,使得模型具備更強的特征表達能力,進而對真實數據分布有更強的擬合能力。這一大類方法在各種領域的數據上展示出了良好的效果,得到了廣泛的應用。但即便如此,此類方法仍有可改進之處,一個典型的問題就是模型輸入特征向量的初始化。具體地,一般在深度學習模型中,作為模型最初輸入的樣本特征(或稱表征、表示)向量若不進行特殊處理,則通常為隨機數,不攜帶有效信息,在以目標函數為指導下進行訓練后,其值才發生改變,并開始表達樣本攜帶的信息。
因此,如何初始化特征向量對模型效果會產生相當的影響。目前,業界采用較多的方式是使用一些使用廣域、巨量文本數據預訓練的詞向量作為初始特征向量。這種方式存在一些不足。一方面,雖然提供了比較通用的語義特征,但缺少當前領域內特定的語義關系;另一方面,當訓練數據中的實體分布非常不均勻時(例如總共6種實體,出現最多的實體出現10000次,出現最少的實體出現10次),容易出現模型整體預測準確度較好,但對于個別標簽的預測準確度很差的情況。
發明內容
本發明實施例提供一種命名實體識別方法、裝置、設備及存儲介質,以解決命名實體識別模型初始特征缺少領域字符實體關系的問題,同時改善訓練樣本不均帶來的個別實體被忽略問題。
第一方面,本發明實施例提供了一種命名實體識別方法,包括:
獲取待識別字符的圖特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海浦東發展銀行股份有限公司,未經上海浦東發展銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110795179.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種球面、圓柱面滾子全自動渦流檢測設備
- 下一篇:一種耐火容器的修補方法





