[發明專利]一種基于連續數字壓縮編碼的長數字實體抽取方法有效
| 申請號: | 202110263805.5 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112989807B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 盧玲;王玉柯;白靈;羅輝;瞿春霞 | 申請(專利權)人: | 重慶理工大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 重慶天成卓越專利代理事務所(普通合伙) 50240 | 代理人: | 王宏松 |
| 地址: | 400054 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 連續 數字 壓縮 編碼 實體 抽取 方法 | ||
本發明提出了一種基于連續數字壓縮編碼的長數字實體抽取方法,包括:S1,將實體詞典中的實體信息融合到單個字符的表示中;S2,對帶噪音的長數字實體進行壓縮編碼和標注;S3,送入Bi?LSTM+CRF模型進行實體識別訓練,然后對長數字實體進行抽取,得到所需的命名實體。本發明在NER任務的實體標注階段增加一種新的H標簽,專門對長數字實體中的噪音數據進行標注,使模型通過學習H標簽,CNCD技術能有效識別規范的和帶噪音的長數字實體,同時保證對其他類型實體的識別率正確率。
技術領域
本發明涉及人工智能的自然語言處理領域,特別涉及一種基于連續數字壓縮編碼的長數字實體抽取方法。
背景技術
命名實體識別(Named Entity Recognition,NER)是信息抽取、問答系統、句法分析、機器翻譯、信息檢索等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位。NER的任務目標是識別出文本中的三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體。例如,在“朱明在2020年12月6日參加了中國計算機協會舉辦的計算機能力認證考試。”中,“朱明”是人名類實體,“2020年12月6日”是時間類實體,“中國計算機協會”是機構名實體。
NER任務是信息檢索、對話推薦、對話生成等應用研究的子任務之一,一直是自然語言處理領域研究的熱點。
現有研究普遍將NER問題作為一個序列標注任務。主要提出的研究方法包括SoftWord特征技術、條件隨機場(Conditional Random Field,CRF)、長短時記憶網絡模型(Long Short-term Model,LSTM)、LSTM+CRF、Lattice-LSTM等。其中, SoftLexicon+Bi-LSTM+CRF是目前最被廣泛認可的一種方法。它使用一種 SoftLexicon方法,首先將與某字符相關的候選詞的信息融合到該字符的表示 (embedding)中,然后構建Bi-LSTM+CRF模型進行實體抽取,從而提高模型的識別率和訓練速度。雖然SoftLexicon+Bi-LSTM+CRF方法在常用的cluener數據集、weibo數據集中實體識別準確率分別為92.0%、94.0%,但對帶噪音的長數字實體的識別準確率均為53.0%。總體來看,由于較少有專門針對帶噪音的長數字實體抽取方法的研究,使帶噪音的長數字實體識別準確率偏低。
主要原因為:一是現有模型主要通過設置一定大小的觀察窗口來抽取實體,當數字實體較長時,可能超出觀察窗口,使實體提取不完整;二是現有的模型對長數字實體中的噪音沒有專門的處理方法,將噪音數據當作普通的非實體類字符進行標注。這將打亂模型原標簽間的共現規則,使模型在預測正常的長數字實體時產生理解偏差,從而影響實體識別的準確率。
發明內容
本發明旨在至少解決現有技術中存在的技術問題,特別創新地提出了一種基于連續數字壓縮編碼的長數字實體抽取方法。
為了實現本發明的上述目的,本發明提供了一種基于連續數字壓縮編碼的長數字實體抽取方法,包括:
S1,將實體詞典中的實體信息融合到單個字符的表示中;
S2,對帶噪音的長數字實體進行壓縮編碼和標注;
S3,送入Bi-LSTM+CRF模型進行實體識別訓練,然后對長數字實體進行抽取,得到所需的命名實體。
進一步地,所述S1包括:
S1-1,找到含有字符Ci的四類候選實體集SupB、SupM、SupE和SupS;
其中SupB是候選實體中字符Ci作為單詞首字的詞的集合,SupM是字符Ci作為單詞中間字的詞的集合,SupE是字符Ci作為末尾字的詞的集合,SupS是字符Ci作為單獨字的集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶理工大學,未經重慶理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110263805.5/2.html,轉載請聲明來源鉆瓜專利網。





