[發明專利]一種實體識別方法、終端設備及存儲介質有效
| 申請號: | 202010863708.5 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN112101031B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 洪萬福;錢智毅;劉劍涵 | 申請(專利權)人: | 廈門淵亭信息科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/126;G06F40/242;G06F16/901;G06N3/04 |
| 代理公司: | 廈門市精誠新創知識產權代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市軟*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 方法 終端設備 存儲 介質 | ||
本發明涉及一種實體識別方法、終端設備及存儲介質,該方法中包括:S1:構建包含待識別文本對應領域實體的詞圖;S2:通過詞向量嵌入層將待識別文本中的每個詞表示為詞匯張量;S3:將待識別文本的所有詞匯張量通過圖神經網絡模塊從構建的詞圖中提取待識別文本對應的候選實體;圖神經網絡模塊包括圖注意力網絡層與雙向圖卷積網絡層;S4:將待識別文本的詞匯張量和候選實體通過雙向循環神經網絡層轉換為含上下文信息的中間計算張量;S5:將中間計算張量輸入CRF解碼層進行解碼,得到最終識別的待識別文本中包含的實體。本發明通過對實體邊界的二次圖結構建模,利用圖神經網絡對實體邊界的關系解析,以減輕實體邊界判定不足對結果準確率的影響。
技術領域
本發明涉及文本識別領域,尤其涉及一種實體識別方法、終端設備及存儲介質。
背景技術
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。簡單的講,就是識別自然文本中的實體指稱的邊界和類別。目前實體識別方法包括有:
1.有監督的學習方法:此類算法需要利用大規模的已標注語料對模型進行參數訓練。目前常用的模型或方法包括隱馬爾可夫模型(HMM)、語言模型、最大熵模型、支持張量機(SVM)、決策樹(DT)和條件隨機場(CRF)等。目前基于條件隨機場的方法是命名實體識別中最成功的方法。
2.半監督的學習方法:此類算法利用標注的小數據集(種子數據)自舉學習。
3.無監督的學習方法:此類算法利用詞匯資源等進行上下文聚類。
4.混合方法:幾種模型相結合或利用統計方法和人工總結的知識庫。
值得一提的是,由于深度學習在自然語言的廣泛應用,基于深度學習的命名實體識別方法也展現出不錯的效果,此類方法基本還是把命名實體識別當做序列標注任務來做,比較經典的方法是循環神經網絡(LSTM)結合條件隨機場(CRF)模型(LSTM+CRF)與雙向循環神經網絡(BiLSTM)結合條件隨機場模型(BiLSTM+CRF)。
但現有方法存在以下問題:
1.現有基于循環神經網絡的實體識別模型需要大量高質量已標注訓練數據,而具體的專業領域場景通常缺少高質量的已標注實體,這給現有模型訓練帶來很大挑戰。
2.現有實體識別模型無法很好處理嵌套實體的情況(如實體:廈門集美軟件園,其中廈門,集美,軟件園以及集美軟件園分別均又是獨立實體),通常的做法是取最外層(最長)的實體,而忽略其內部存在的其他實體。
3.現有的實體識別技術的瓶頸在于對實體邊界判定的精確度不足。通常稀疏的邊界標簽和模糊匹配會讓實體識別的結果準確度無法達到預期。
發明內容
為了解決上述問題,本發明提出了一種實體識別方法、終端設備及存儲介質。
具體方案如下:
一種實體識別方法,包括以下步驟:
S1:構建包含待識別文本對應領域實體的詞圖;
S2:通過詞向量嵌入層將待識別文本中的每個詞表示為詞匯張量;
S3:將待識別文本的所有詞匯張量通過圖神經網絡模塊從構建的詞圖中提取待識別文本對應的候選實體;圖神經網絡模塊包括圖注意力網絡層與雙向圖卷積網絡層;
S4:將待識別文本的詞匯張量和候選實體通過雙向循環神經網絡層轉換為含上下文信息的中間計算張量;
S5:將中間計算張量輸入CRF解碼層進行解碼,得到最終識別的待識別文本中包含的實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門淵亭信息科技有限公司,未經廈門淵亭信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010863708.5/2.html,轉載請聲明來源鉆瓜專利網。





