[發明專利]基于預訓練模型融合詞典信息的中文命名實體識別方法在審
| 申請號: | 202011499251.0 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112487818A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 張琨;張漢同;朱錦雷;張傳鋒 | 申請(專利權)人: | 神思電子技術股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/126 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 趙玉鳳 |
| 地址: | 250000 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 模型 融合 詞典 信息 中文 命名 實體 識別 方法 | ||
本發明公開一種基于預訓練模型融合詞典信息的中文命名實體識別方法,本方法采用預訓練模型作為編碼模型,通過預訓練模型獲取中文字符序列對應的隱狀態向量表示,作為第一表示。單詞邊界特征構建模塊獲取字符序列對應的特征向量表示,作為第二表示。將第一表示和第二表示連接后送入解碼模塊,利用條件隨機場建模、維特比算法解碼,得到每個字符對應的類型,進而識別出其中實體。本發明基于字符序列建模,避免了先分詞再進行命名實體識別造成的錯誤傳播;同時該模型通過引入了單詞邊界特征,融合了單詞的邊界信息,為模型提供了更多的信息,從而提高中文命名實體識別的效果。
技術領域
本發明涉及一種基于預訓練模型融合詞典信息的中文命名實體識別方法,屬于自然語言處理領域。
背景技術
命名實體識別(NER)任務是指識別文本中具有特別意義的實體。它是自然語言處理(NLP)的一個非常基礎的任務。是信息抽取、問答系統、句法分析等NLP任務的重要基礎工具。
中文NER又不同于英文NER,中文沒有單詞邊界,所以增加了識別的難度。目前主要有兩種方法來實現:一種是先對文本進行分詞,再進行詞級別的序列標注,但是這種方法會帶來分詞的錯誤傳遞;另一種是基于字符級的序列標注,但這種方法忽略了單詞的邊界信息。第三種方法是對前兩種方法的折衷,將單詞的邊界信息融合入基于字符的序列標注中。
發明內容
針對現有技術的缺陷,本發明提供一種基于預訓練模型融合詞典信息的中文命名實體識別方法,有效利用預訓練模型學習到的豐富的詞法、句法信息,并融合詞典中單詞的邊界信息,來提高中文命名實體識別的效果。
為了解決所述技術問題,本發明采用的技術方案是:一種基于預訓練模型融合詞典信息的中文命名實體識別方法,其特征在于:包括以下步驟:
S01)、編碼模型采用預訓練模型,編碼模塊的輸入為中文字符序列,輸出為每個字符對應的隱狀態向量,即通過預訓練模型獲取中文字符序列對應的隱狀態向量表示,作為第一表示;
S02)、單詞邊界特征構建模塊獲取字符序列對應的特征向量表示,作為第二表示;
S03)、將第一表示和第二表示連接后送入解碼模塊,利用條件隨機場建模、維特比算法解碼,得到每個字符對應的類型,進而識別出其中實體。
進一步的,預訓練模型采用bert、roberta、ernie模型中的一種。
進一步的,單詞邊界特征構建模塊根據領域實體詞典提取字符序列中的所有實體,進而計算出每個字符對應的特征向量;特征向量的第一維表示是否存在實體以該字符為首字符,如果存在,則第一維的值為1,否則為0;第二維表示是否存在實體以該字符為末尾字符,如果存在,則第二維的值為1,否則為0。
進一步的,單詞邊界特征構建模塊獲取字符序列對應的特征向量表示的過程為:
S21)、領域實體詞典構建,針對某個應用領域,通過包括網上公布數據、實際場景收集、標注在內的途徑構建實體詞典;
S22)、潛藏實體提取與邊界確定,根據領域實體詞典,提取字符序列中所有可能的實體以及每一個實體在字符序列中的起始與結束位置;
S23)、單詞邊界特征構建,針對字符序列中的每一個字符,構建一個兩維的單詞邊界特征向量,計算方法是:在所有潛藏實體中,只要有一個實體以當前位置為啟示位置,則第一維值為1,否則為0;同樣,只要有一個實體以當前位置為結束位置,則第二維值為1,否則為0。
進一步的,解碼模塊輸入是第一表示和第二表示連接后的向量,然后利用條件隨機場算法進行解碼,得到每個字符的類別,根據字符類別識別出實體的位置與類別。
進一步的,字符類別根據BIO規則與實體類別來確定。
本發明的有益效果:本發明基于字符序列建模,避免了先分詞再進行命名實體識別造成的錯誤傳播;同時該模型通過引入了單詞邊界特征,融合了單詞的邊界信息,為模型提供了更多的信息,從而提高中文命名實體識別的效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于神思電子技術股份有限公司,未經神思電子技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011499251.0/2.html,轉載請聲明來源鉆瓜專利網。





