[發明專利]一種基于序列到序列架構的命名實體識別方法有效
| 申請號: | 202110608812.4 | 申請日: | 2021-06-01 |
| 公開(公告)號: | CN113221576B | 公開(公告)日: | 2023-01-13 |
| 發明(設計)人: | 邱錫鵬;顏航 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 王偉珍 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 序列 架構 命名 實體 識別 方法 | ||
本發明涉及識別技術領域,提供了一種基于序列到序列架構的命名實體識別方法,由于構件的命名實體識別模型包括編碼器和解碼器,解碼器的輸出為命名實體位置和文本標簽,通過預設樣本對命名實體識別模型進行訓練后,將待測文本輸入命名實體識別模型,得到識別結果序列,對命名實體識別模型輸出的識別結果序列進行解碼,得到多個命名實體以及每個命名實體所對應的文本標簽,因此,本發明在不同場景的命名實體識別中不再需要針對不同命名實體設計不同的標簽,能夠使用完全一樣的模型來解決不同場景的命名實體識別任務,設計簡單,應用場景廣泛。
技術領域
本發明涉及識別技術領域,具體涉及一種基于序列到序列架構的命名實體識別方法。
背景技術
命名實體識別任務是從給定文本中抓取特定類型文字片段的任務,如抽取文中的人物、地點、癥狀等。例如針對句子,“張三將于2021年就任某職務”,需要抽取出(張三,人物)、(2021年,時間)這兩個元組,元組的第一個元素代表句子中的內容,元組的第二個元素代表該內容是什么類型的命名實體。
命名實體識別作為信息抽取技術的基礎技術之一,被廣泛應用于自然語言處理中的問答系統,對話系統以及翻譯系統等。在最常見的命名實體任務中,不同的實體之間不存在交叉,并且同一實體一定是連續的文本片段。但在一些特定的應用場景下,實體之間會存在嵌套關系,例如“魯迅紀念堂”這個短語中,至少包含了以下實體:(魯迅,人物),(魯迅紀念堂,地點),兩個實體之間是嵌套關系。另外在醫學領域的命名實體識別還可能存在非連續實體的情況,例如抽取病人癥狀的實體識別中,需要從“患者肌肉疼痛與酸痛”中抽取(肌肉疼痛,癥狀)以及(肌肉酸痛,癥狀)兩種癥狀,其中“肌肉酸痛”在原句中并不是連續的文本片段。
目前,常見的命名實體識別一般是通過序列標注的方式來解決的,但是針對嵌套命名實體識別和非連續命名實體識別,采用序列標注的方式需要設計復雜的規范。而且這種通過序列標注來進行命名實體識別的方式非常局限,不同類型的命名實體識別必須采用不同的模型結構進行處理,適用范圍狹窄。
發明內容
本發明是為了解決上述問題而進行的,目的在于提供一種基于序列到序列架構的命名實體識別方法。
本發明提供了一種基于序列到序列架構的命名實體識別方法,具有這樣的特征,包括如下步驟:步驟S1,構建命名實體識別模型;步驟S2,通過預設樣本對所述命名實體識別模型進行訓練,所述預設樣本的實體序列是根據預定排序規則得到;步驟S3,將待測文本輸入命名實體識別模型,得到識別結果序列;步驟S4,對所述命名實體識別模型輸出的所述識別結果序列進行解碼,得到多個命名實體以及每個命名實體所對應的文本標簽,其中,命名實體識別模型包括編碼器和解碼器,解碼器的輸出為命名實體位置和文本標簽,在訓練的過程中,使解碼器根據預設樣本輸出命名實體位置以及輸出標簽作為樣本標簽,根據命名實體位置從預設樣本中獲取對應的命名實體作為樣本實體,并根據樣本實體以及樣本標簽對解碼器進行訓練,命名實體序列由命名實體識別模型根據待測文本輸出的命名實體位置和文本標簽組成。
在本發明提供的基于序列到序列架構的命名實體識別方法中,還可以具有這樣的特征:其中,編碼器的輸入為待識別文本,編碼器的輸出為詞語的高維向量。
在本發明提供的基于序列到序列架構的命名實體識別方法中,還可以具有這樣的特征:其中,解碼器的輸入為編碼器的輸出,解碼器的輸出為命名實體序列。
在本發明提供的基于序列到序列架構的命名實體識別方法中,還可以具有這樣的特征:其中,在命名實體序列中,命名實體位置用于指示命名實體在待識別文本中命名實體的位置,文本標簽為命名實體所對應的類別。
在本發明提供的基于序列到序列架構的命名實體識別方法中,還可以具有這樣的特征:其中,預定排序規則為:根據命名實體位置將命名實體按照開始位置先后進行排序,并對開始位置相同的命名實體按命名實體對應的實體長度進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110608812.4/2.html,轉載請聲明來源鉆瓜專利網。





