[發(fā)明專利]一種基于預(yù)訓(xùn)練模型的特種設(shè)備中文命名實體識別方法在審
| 申請?zhí)枺?/td> | 202110893472.4 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113609859A | 公開(公告)日: | 2021-11-05 |
| 發(fā)明(設(shè)計)人: | 張元鳴;楊偉杰;姬琦;肖剛;陸佳煒;程振波 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36;G06F40/216;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 杭州浙科專利事務(wù)所(普通合伙) 33213 | 代理人: | 周紅芳;朱盈盈 |
| 地址: | 310014 *** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 訓(xùn)練 模型 特種設(shè)備 中文 命名 實體 識別 方法 | ||
1.一種基于預(yù)訓(xùn)練模型的特種設(shè)備中文命名實體識別方法,其特征在于,包括以下步驟:
1)中文命名實體數(shù)據(jù)集標注:
1.1)數(shù)據(jù)獲取:
抽取特種設(shè)備領(lǐng)域相關(guān)的文本數(shù)據(jù),對數(shù)據(jù)進行清洗和去重,作為中文實體識別的數(shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集;
1.2)中文命名實體標注策略:
定義中文命名實體標注策略BIEOS,標注類別包括:
B表示該字符是實體的開始位置;
I表示該字符是實體的中間位置;
E表示該字符實體的結(jié)束位置;
O表示該字符實體的不屬于任何實體類型;
S表示該字符單獨構(gòu)成一個實體;
x表示該字符所在實體的類型;
1.3)實體類別標注策略:
定義特種設(shè)備領(lǐng)域命名實體的類型,包括C、P、F和A四類,分別表示特種設(shè)備的組成、參數(shù)、故障和事故;
1.3)訓(xùn)練數(shù)據(jù)集標注:
根據(jù)實體標注策略和實體類型對實體進行標注,對數(shù)據(jù)集中的訓(xùn)練集進行標注;
2)基于BERT預(yù)訓(xùn)練模型的字向量表示:
BERT預(yù)訓(xùn)練模型通過聯(lián)合調(diào)節(jié)所有層中的雙向Transformer來預(yù)訓(xùn)練深度雙向表示,利用BERT的BertModel類構(gòu)造BERT結(jié)構(gòu),然后將輸入的特種設(shè)備中文漢字序列輸入到BERT特征表示層中,對文本中的每個漢字進行編碼得到中文漢字的向量表示:
x=(x1,x2,x3…xn) (1)
3)biLSTM上下文編碼:
3.1)biLSTM的輸入:
biLSTM接收來自BERT層輸出的中文漢字序列的向量表示x,輸入到兩個biLSTM單元中,并初始化隱藏狀態(tài)h0;
3.2)基于biLSTM的字向量序列雙向編碼:
biLSTM隱藏層輸出表示公式如下:
it=σ(Wixxt+Wihht-1+bi) (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
ot=σ(Woxxt+Wohht-1+bo) (4)
其中,W、b分別表示連接兩層的權(quán)重矩陣和偏置向量,σ是sigmoid激活函數(shù),為點乘運算,xt為t時刻的輸入,ct為t時刻的細胞狀態(tài),為t時刻的臨時細胞狀態(tài),ht表示t時刻的隱藏層狀態(tài),ft、it和ot表示t時刻的遺忘門、記憶門和輸出門;
對輸入序列分別采用順序和逆序的方式計算得到兩種不同的隱藏層表示h前和h后,然后通過向量拼接的方式得到最終的隱藏層表示,公式如下:
hi=[hi前+hi后] (8)
其中hi前,hi后分別表示第i個字符對應(yīng)的前、后向隱藏層表示,[]表示相量拼接,hi表示最終的隱藏層表示;
將得到的隱藏層表示經(jīng)過一個線性層映射為一個維度為輸出標簽數(shù)量的向量,然后通過Sofimax函數(shù)進行歸一化處理,得到每種標簽的概率P,計算公式如下:
P=log(Softmax(hi)) (9)
3.3)最小化損失函數(shù):
采用NLLLoss損失函數(shù)計算每種標簽的概率值與目標結(jié)果的差距,NLLLoss函數(shù)接收兩個張量,第一個張量是標簽的概率值,第二個是目標結(jié)果,根據(jù)目標結(jié)果的取值找出標簽的概率值中對應(yīng)位置的元素,求和取平均值,通過隨機梯度下降法最小化損失函數(shù)值,公式如下:
Loss二NLLLoss(output,target) (10)
其中output是標簽的概率值,target是目標結(jié)果;
4)基于CRF條件隨機場解碼標簽序列:
4.1)學(xué)習(xí)狀態(tài)矩陣和轉(zhuǎn)移矩陣:
采用CRF條件隨機場學(xué)習(xí)上下文的標簽信息,CRF算法中涉及到狀態(tài)矩陣和轉(zhuǎn)移矩陣;
在條件隨機場中,對于一個輸入序列x=(x1,x2,x3…xn),序列中的第i個字對應(yīng)k個特定標簽的概率構(gòu)成一個狀態(tài)矩陣,是當前字符對應(yīng)于每個標簽的概率分數(shù),表示為:
其中,分數(shù)越高就代表該字對應(yīng)于該標簽的概率越高,n表示序列長度,i表示序列中第i個字符,yi則表示該字符對應(yīng)的標簽,k表示標簽數(shù)量,表示一個維度為n×k的矩陣;
在條件隨機場中,對于特定的k個標簽,從標簽i轉(zhuǎn)移到標簽i+1的轉(zhuǎn)移得分構(gòu)成一個轉(zhuǎn)移矩陣,用來表示標簽與標簽之間的轉(zhuǎn)移關(guān)系,表示為:
其中,分數(shù)越高代表標簽yi轉(zhuǎn)移到下一個標簽yi+1的概率越高;
4.2)計算序列標簽最大概率:
根據(jù)狀態(tài)矩陣和轉(zhuǎn)移矩陣,對于一個輸入序列x=(x1,x2,x3…xn),其對應(yīng)的標簽序列為y=(y1,y2,y3…yn)的評分公式為:
用Softmax函數(shù)歸一化得到y(tǒng)序列標簽的概率,公式如下:
其中,代表序列真實路徑標記值,Yx表示所有可能的路徑標記的集合,e是指數(shù)函數(shù);
4.3)最小化損失函數(shù):
在訓(xùn)練過程中,采用以下?lián)p失函數(shù)最大化正確標簽的似然概率,通過隨機梯度下降法最小化損失函數(shù)的值,計算公式為:
4.4)基于維特比算法解碼最終標簽序列:
在中文命名實體識別模型訓(xùn)練完成之后,得到了每個漢字的所有可能的標簽序列;然后,采用維特比算法解碼該標簽序列,即計算標簽序列中的最優(yōu)序列,該算法每次記錄到當前時刻每個觀察標簽的最優(yōu)序列,用動態(tài)規(guī)劃的方法減少不必要的重復(fù)計算,到結(jié)束時,從最后一個時刻的最優(yōu)值回溯到開始位置,回溯完成后,這個從開始到結(jié)束的路徑就是最優(yōu)的;
對于一組未知標簽的序列x,采用維特比算法獲得所有標簽序列上預(yù)測總得分最高的標簽序列,計算公式如下:
最后,輸出漢字序列x所對應(yīng)的最終實體標簽序列y*。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110893472.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種抗菌保健口罩
- 下一篇:一種再生塑料制備塑料桶的工藝及裝置
- 特種設(shè)備安全監(jiān)控管理系統(tǒng)
- 特種設(shè)備應(yīng)急救援系統(tǒng)
- 特種設(shè)備的監(jiān)管和檢驗驗測方法、用戶設(shè)備及系統(tǒng)
- 一種基于移動GIS的特種設(shè)備監(jiān)管裝置
- 一種基于移動GIS的特種設(shè)備監(jiān)管方法
- 一種自輪運轉(zhuǎn)特種設(shè)備調(diào)車監(jiān)控方法及系統(tǒng)
- 一種提高特種設(shè)備安全運行質(zhì)量的系統(tǒng)及方法
- 一種船舶特種設(shè)備基座的焊接方法
- 自輪運轉(zhuǎn)特種設(shè)備的運行方法、裝置、設(shè)備和存儲介質(zhì)
- 一種基于FRQR的特種設(shè)備數(shù)據(jù)移動互聯(lián)網(wǎng)應(yīng)用服務(wù)平臺





