[發(fā)明專利]一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實體識別模型在審
| 申請?zhí)枺?/td> | 202111643086.6 | 申請日: | 2021-12-29 |
| 公開(公告)號: | CN114510940A | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計)人: | 王明浩 | 申請(專利權(quán))人: | 中云開源數(shù)據(jù)技術(shù)(上海)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/247;G06F40/126;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 上海伯瑞杰知識產(chǎn)權(quán)代理有限公司 31227 | 代理人: | 俞磊 |
| 地址: | 200131 上海市浦東新區(qū)中國(上海)自*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 應(yīng)用于 制造業(yè) 科學(xué)技術(shù) 文檔 命名 實體 識別 模型 | ||
1.一種應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實體識別模型,其特征在于,包括如下步驟:
I.數(shù)據(jù)收集
選取現(xiàn)有目標文本,構(gòu)成訓(xùn)練命名實體識別模型的原始語料庫;
II.數(shù)據(jù)預(yù)處理
去除原始語料庫中的標點和停用詞,執(zhí)行詞形還原,形成語料庫對應(yīng)的詞典;人工定義若干種制造文本類別;并為詞典中的每一個詞分配一個制造文本類別標簽;采用定制化的詞表提取算法,用BIOES格式自動標注原始語料庫;
III.命名實體識別模型的網(wǎng)絡(luò)結(jié)構(gòu)
1)詞嵌入層SciBERT,其用于將輸入的詞轉(zhuǎn)換為固定長度的向量;
2)位于詞嵌入層SciBERT之上的BiLSTM層,其利用文本序列的上下文信息挖掘隱藏特征,其用于編碼文本;
3)位于BiLSTM層之上的注意力層,其用于降低實體內(nèi)部不相關(guān)修飾詞的權(quán)重,界定實體的邊界,避免重要實體抽取的遺漏;
4)位于注意力層之上的CRF層,其作為網(wǎng)絡(luò)結(jié)構(gòu)的輸出層,用于避免文本序列中的實體被錯誤標注;
IV.命名實體識別模型的訓(xùn)練
把第I步得到的原始語料庫按70:20:10的比例劃分,分別得到訓(xùn)練集、驗證集和測試集;命名實體識別模型需要訓(xùn)練的參數(shù)包括SciBERT詞嵌入?yún)?shù)、BiLSTM的權(quán)重、注意力機制的權(quán)重、轉(zhuǎn)移矩陣A和矩陣E;采用后向傳播算法更新每一次訓(xùn)練的參數(shù),每一次訓(xùn)練使用學(xué)習(xí)率為0.01的隨機梯度下降算法SGD和值為5.0的梯度裁剪;用維度為100的單層前向LSTM和后向LSTM實現(xiàn)BiLSTM;網(wǎng)絡(luò)的失活率DropOut設(shè)置為0.5;共執(zhí)行20次試驗,每一次試驗執(zhí)行100個epoch,每一個epoch執(zhí)行500次iteration,Batch size的大小為256;
V.模型預(yù)測
用第IV步訓(xùn)練好的命名實體識別模型對已準備好的測試集進行命名實體標注;
VI.主題識別
通過使用已訓(xùn)練好的命名實體識別模型尋找重點命名實體;其方法是:查找給定的段落文本中出現(xiàn)的命名實體的數(shù)量;若兩個或多個實體的數(shù)量相等,將優(yōu)先考慮段落中第一個識別的實體。
2.根據(jù)權(quán)利要求1所述的應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實體識別模型,其特征在于,所述BiLSTM層利用文本序列的上下文信息挖掘隱藏特征的過程為:BiLSTM層計算每一個單詞t處句子左邊的上下文表示以及句子右邊的上下文表示然后連接左邊和右邊的上下文表示得到表示單詞t處的上下文信息。
3.根據(jù)權(quán)利要求1所述的應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實體識別模型,其特征在于,所述注意力層的表示公式參見式(1)-式(3);
scoreki=vTtanh(Whk+Uhi+b) (2)
其中,αki是結(jié)點k和結(jié)點i之間的注意力分布,scoreki是結(jié)點k和結(jié)點i之間的注意力打分函數(shù);v、W和U是權(quán)重矩陣,hk是BiLSTM右邊的上下文表示hi是BiLSTM左邊的上下文表示C是注意力編碼。
4.根據(jù)權(quán)利要求1所述的應(yīng)用于制造業(yè)科學(xué)技術(shù)文檔的命名實體識別模型,其特征在于,所述CRF層的原理如下:
設(shè)X={x1,x2,…,xn-1,xn}是輸入的句子向量,注意力機制學(xué)得的特征向量為E={v1,v2,…,vn-1,vn},n是句子中詞的個數(shù);對一個預(yù)測序列注意力機制學(xué)得的特征向量Y={y1,y2,…,yn},則預(yù)測序列的得分計算公式可用公式(4)表示;
其中,A是轉(zhuǎn)移矩陣,表示從標簽yi轉(zhuǎn)移到標簽yj的得分;表示第i個詞是標簽yi的得分;對于一個序列Y,在所有可能的標簽序列上的softmax產(chǎn)生的一個概率如公式(5)所示;
命名實體識別模型訓(xùn)練時用公式(6)最大化正確標簽序列;
其中,YX表示句子X的所有可能的標簽序列,解碼時可獲得得分最大的輸出序列為最優(yōu)的Y*就是從文本中自動標注得到的命名實體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中云開源數(shù)據(jù)技術(shù)(上海)有限公司,未經(jīng)中云開源數(shù)據(jù)技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111643086.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





