[發明專利]一種基于序列到序列架構的命名實體識別方法有效
| 申請號: | 202110608812.4 | 申請日: | 2021-06-01 |
| 公開(公告)號: | CN113221576B | 公開(公告)日: | 2023-01-13 |
| 發明(設計)人: | 邱錫鵬;顏航 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 王偉珍 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 序列 架構 命名 實體 識別 方法 | ||
1.一種基于序列到序列架構的命名實體識別方法,其特征在于,包括如下步驟:
步驟S1,構建命名實體識別模型;
步驟S2,通過預設樣本對所述命名實體識別模型進行訓練,所述預設樣本的實體序列是根據預定排序規則得到;
步驟S3,將待測文本輸入所述命名實體識別模型,得到識別結果序列;
步驟S4,對所述命名實體識別模型輸出的所述識別結果序列進行解碼,得到多個命名實體以及每個命名實體所對應的文本標簽,
其中,所述命名實體識別模型包括編碼器和解碼器,
所述解碼器的輸出為命名實體位置和文本標簽,
在所述訓練的過程中,使所述解碼器根據所述預設樣本輸出命名實體位置以及輸出標簽作為樣本標簽,根據所述命名實體位置從所述預設樣本中獲取對應的命名實體作為樣本實體,并根據所述樣本實體以及所述樣本標簽對所述解碼器進行訓練,
命名實體序列由所述命名實體識別模型根據所述待測文本輸出的所述命名實體位置和所述文本標簽組成,
所述命名實體位置為指向字符在所述待測文本中序號的指針,在所述命名實體序列中,所述命名實體位置用于指示所述命名實體在所述待測文本中命名實體的位置,所述文本標簽為所述命名實體所對應的類別,
所述預定排序規則為:
根據所述命名實體位置將命名實體按照開始位置先后進行排序,并對所述開始位置相同的所述命名實體按所述命名實體對應的實體長度進行排序,
當所述命名實體為常規命名實體時,按照命名實體在文本中的出現順序依次排列;
當所述命名實體為嵌套命名實體時,命名實體序列的轉換方式為,先開始的命名實體排序靠前,同一位置開始的命名實體間,長度更短的靠前,其中,對于待測文本[x1,x2,x3,x4,x5,x6,x7],其中[x1,x2]、[x1,x2,x3]和[x5,x6]分別為實體類別e1、e2和e3,則將該待測文本中的命名實體序列表示為[1,2,e1,1,2,3,e2,5,6,e3];
當所述命名實體為非連續命名實體時,命名實體序列的轉換規則為,先開始的命名實體排序靠前,同一位置開始的命名實體間按照實體長度排序,越短的命名實體越靠前,其中,對于待測文本[x1,x2,x3,x4,x5,x6,x7],其中[x1,x3]、[x1,x2,x3,x5]和[x5,x6]分別為實體類別e1、e2和e3,則將該待測文本中的命名實體序列表示為[1,3,e1,1,2,3,5,e2,5,6,e3],
所述編碼器的計算過程為:
He=Encoder([x1,...,xn])
式中,He是經過編碼以后的每個詞語的隱向量,
所述解碼器的計算過程為:
Ee=TokenEmbed(X),
cd=TokenEmbed(C),
式中,是通過編碼器已生成的內容,α是超參標量,C是實體類別的集合,是點積,Pt是當前時刻輸出詞語的分布。
2.根據權利要求1所述的基于序列到序列架構的命名實體識別方法,其特征在于:
其中,所述編碼器的輸入為待測文本,所述編碼器的輸出為詞語的高維向量。
3.根據權利要求1所述的基于序列到序列架構的命名實體識別方法,其特征在于:
其中,所述解碼器的輸入為所述編碼器的輸出,所述解碼器的輸出為所述命名實體序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110608812.4/1.html,轉載請聲明來源鉆瓜專利網。





