[發明專利]一種基于預訓練模型的特種設備中文命名實體識別方法在審
| 申請號: | 202110893472.4 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113609859A | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 張元鳴;楊偉杰;姬琦;肖剛;陸佳煒;程振波 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36;G06F40/216;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 周紅芳;朱盈盈 |
| 地址: | 310014 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 特種設備 中文 命名 實體 識別 方法 | ||
一種基于預訓練模型的特種設備中文命名實體識別方法,包括以下步驟:1)按照中文命名實體標注策略BIEOS對中文命名實體數據集進行標注,將實體類別分為四種類別;2)基于BERT預訓練模型將中文句子轉換為字向量表示;3)將字向量表示輸入到biLSTM模型中,學習字向量序列雙向編碼,提取句子特征;4)采用CRF條件隨機場學習上下文的標簽概率,得到了每個漢字的所有可能的標簽序列;5)最后輸出漢字序列對應的實體類別。本發明通過無監督的方式對無標簽語料中進行訓練,能夠有效解決小數據集、樣本特征信息不足情況下中文命名實體提取的問題,用于構建特種設備領域的知識圖譜。
技術領域
本發明涉及知識圖譜、深度學習、特種設備、實體識別等領域,特別給出了一種基于預訓練模型的特種設備中文命名實體識別方法。
背景技術
知識圖譜是一種揭示實體之間關系的語義網絡,能夠對現實世界的事物及其相互關系進行形式化地描述,現已被用來泛指各種大規模的知識庫。知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是(實體,關系,實體)三元組,以及實體及其相關屬性值對,實體間通過關系相互聯結,構成網狀的知識結構,知識圖譜被廣泛應用于智能搜索、智能問答、個性化推薦等方面。
實體識別是知識圖譜構建過程中的一項基礎性任務,旨在從非結構化文本中提取出具有特定意義和類型的實體。現今,中文實體識別面臨的主要問題在于中文和英文不同的語言特性,中文沒有空格且基本單元是字,因此從字級別來理解句子會非常困難。
基于深度學習的實體識別模型主要包括基于循環神經網絡、長短期記憶網絡、卷積神經網絡等實體識別方法。BiLSTM-CRF(Computer Science,2015)首次將雙向長短期記憶網絡模型應用于實體識別中,BiLSTM可以使用過去和未來的輸入特征,CRF可以使用句子級的標注信息。LSTM-CNNs-CRF(Association for Computational Linguistics,2016)采用CNN將單詞的字符信息編碼為字符級特征然后與word embedding聯合輸入BiLSTM構建每個字符的上下文特征,最后由CRF利用上下文標簽信息來解碼整個句子的標簽。Lattice-structured LSTM(Association for Computational Linguistics,2018)編碼了序列中輸入的字符信息和潛在詞匯信息,對比以前只基于單個字的輸入表征,這里可以明確地利用詞匯信息,并且避免了實體分割錯誤的情況。WC-LSTM(Association for ComputationalLinguistics,2019)利用了四種不同的策略來將單詞信息編碼為固定大小的矢量,使其可以分批訓練并適應各種應用場景。Multi-digraph Gazetteers(Association forComputational Linguistics,2019)利用詞典和圖神經網絡融入單詞信息給NER系統。LR-CNN(International Joint Conference on Artificial Intelligence)提出一種含有rethinking機制的CNN網絡,通過CNN對句子與lexicon中存在的詞語進行處理并且通過rethinking機制解決lexicon沖突。CAN-NER(North American Association forComputational Linguistics,2019)提出了基于注意力機制的卷積神經網絡架構,用于中文實體識別。
特種設備領域的實體識別是構建特種設備知識圖譜的關鍵步驟,其任務是從特種設備非結構化數據中提取特定類型的命名實體。目前,在特種設備領域中,還沒有公開的標注數據集,領域文本數據規模較小,樣本特征信息也不足,這些問題導致現有的模型難以有效識別特種設備領域的命名實體。
發明內容
本發明針對特種設備領域存在標注數量較少且實體識別精度不高等問題,提出了一種基于預訓練模型的特種設備實體識別模型,該模型能夠較充分地學習特種設備領域的文本特征信息,提取特種設備命名實體,從而構建知識圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110893472.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗菌保健口罩
- 下一篇:一種再生塑料制備塑料桶的工藝及裝置





