[發明專利]實體文本的序列標注方法、裝置及計算機可讀存儲介質在審
| 申請號: | 202011340269.6 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN114548102A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 童毅軒;張永偉;董濱;姜珊珊;張佳師 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/33;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 黃燦;張博 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 文本 序列 標注 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種實體文本的序列標注方法,其特征在于,包括:
確定目標文本的實體文本的起始位置,所述目標文本為待識別實體標簽的文本;
根據所述目標文本的實體文本的起始位置生成第一矩陣,所述第一矩陣的行數和列數均等于所述目標文本的序列長度,所述第一矩陣中的元素用以表示所述目標文本中每個詞對其他詞的可關注權重,若所述目標文本中的一詞位于實體文本范圍內,該詞對第一詞的可關注權重大于對第二詞的可關注權重,所述第一詞包括該詞,還包括位于該詞與實體文本的起始位置之間的詞,所述第二詞為所述目標文本中除所述第一詞之外的其他詞;
利用所述第一矩陣生成命名實體識別模型,所述命名實體識別模型為對第一訓練數據進行訓練得到的,所述第一訓練數據包括訓練文本集合中每個文本對應的分詞的向量,且所述訓練文本集合中每個文本為標注實體標簽的文本;
將所述目標文本輸入所述命名實體識別模型,輸出所述目標文本對應的實體標簽的概率分布。
2.根據權利要求1所述的實體文本的序列標注方法,其特征在于,所述確定目標文本的實體文本的起始位置包括:
對所述目標文本進行數據格式轉換和/或數據噪聲去除,得到第一文本;
對所述第一文本進行分詞,得到第一詞序列;
對所述第一詞序列進行詞片斷切分,將所述第一詞序列切分為第一詞片斷序列;
將所述第一詞片斷序列輸入第二訓練模型,得到所述實體文本的起始位置。
3.根據權利要求2所述的實體文本的序列標注方法,其特征在于,對所述第一詞序列進行詞片斷切分包括:
建立第一初始模型,利用第二訓練數據對所述第一初始模型進行訓練,得到第一切分模型,所述第二訓練數據包括多組數據,每組數據包括詞序列和對所述詞序列進行切分后的詞片斷序列;
利用所述第一切分模型對所述第一詞序列進行詞片斷切分。
4.根據權利要求2所述的實體文本的序列標注方法,其特征在于,還包括獲取所述第二訓練模型的步驟,獲取所述第二訓練模型包括:
建立第二初始模型,利用第三訓練數據對所述第二初始模型進行訓練,得到所述第二訓練模型,所述第三訓練數據包括多個標注出實體文本的起始位置的詞片斷序列。
5.根據權利要求1所述的實體文本的序列標注方法,其特征在于,
所述第一矩陣中,第i行第j列的元素表示所述目標文本中,第i個詞對第j個詞的可關注權重;
所述第一矩陣的第a行元素對應所述目標文本中的第a個詞,若第a個詞及其左邊的k個詞位于實體文本范圍內,則將第a行第a-k至第a個元素的取值賦值為非零值,其他元素的取值賦值為零值;
其中,a,i,j,k均為正整數。
6.根據權利要求1所述的實體文本的序列標注方法,其特征在于,所述命名實體識別模型為自注意力模型,所述命名實體識別模型包括注意力層、前饋神經網絡層、跨度焦點層、線性層和Softmax層;
所述注意力層的輸入為所述目標文本對應的詞向量,所述注意力層的輸出為所述前饋神經網絡層的輸入;
所述前饋神經網絡層的輸出為所述跨度焦點層的輸入,所述跨度焦點層的輸出為:
其中:
Q=WQ*H1;K=WK*H1,;V=WV*H1,H1為所述前饋神經網絡層的輸出,WQ,WK,WV是可訓練的參數矩陣,Maskspan為第一矩陣,dk1為H1矩陣的維度;
所述線性層用于對所述跨度焦點層的輸出的維度進行轉換;
所述Softmax層用于對輸出結果歸一化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011340269.6/1.html,轉載請聲明來源鉆瓜專利網。





