[發(fā)明專利]實體文本的序列標注方法、裝置及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011340269.6 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN114548102A | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設計)人: | 童毅軒;張永偉;董濱;姜珊珊;張佳師 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/33;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京銀龍知識產(chǎn)權代理有限公司 11243 | 代理人: | 黃燦;張博 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 文本 序列 標注 方法 裝置 計算機 可讀 存儲 介質(zhì) | ||
本發(fā)明提供了一種實體文本的序列標注方法、裝置及計算機可讀存儲介質(zhì),屬于自然語言處理技術領域。本發(fā)明的實體文本的序列標注方法,包括:確定目標文本的實體文本的起始位置,目標文本為待識別實體標簽的文本;根據(jù)目標文本的實體文本的起始位置生成第一矩陣,第一矩陣中的元素用以表示目標文本中每個詞對其他詞的可關注權重;利用第一矩陣生成命名實體識別模型,命名實體識別模型為對第一訓練數(shù)據(jù)進行訓練得到的,第一訓練數(shù)據(jù)包括訓練文本集合中每個文本對應的分詞的向量,且訓練文本集合中每個文本為標注實體標簽的文本;將目標文本輸入命名實體識別模型,輸出目標文本對應的實體標簽的概率分布。本發(fā)明的技術方案能夠準確識別文本的實體標簽。
技術領域
本發(fā)明涉及自然語言處理技術領域,具體涉及一種實體文本的序列標注方法、裝置及計算機可讀存儲介質(zhì)。
背景技術
在傳統(tǒng)的實體識別任務里,基于條件隨機場(Conditional Random Fields,CRF)模型的序列標注方法是最為常用的方法。這類方法一般首先根據(jù)輸入文本的字/詞序列創(chuàng)建一種或多種特征序列,然后定義一系列的特征模板用于規(guī)范在這一種或多種特征序列里的要抽取的特征以及特征組合,最后把抽取到的序列的特征輸入到CRF中得到的序列標簽里,就包含了實體的邊界信息以及類別信息。
但是相關技術中的實體標簽識別精度有待提高。
發(fā)明內(nèi)容
本發(fā)明實施例要解決的技術問題是提供一種實體文本的序列標注方法、裝置及計算機可讀存儲介質(zhì),能夠準確識別文本的實體標簽。
根據(jù)本發(fā)明實施例的一個方面,提供了一種實體文本的序列標注方法,包括:
確定目標文本的實體文本的起始位置,所述目標文本為待識別實體標簽的文本;
根據(jù)所述目標文本的實體文本的起始位置生成第一矩陣,所述第一矩陣的行數(shù)和列數(shù)均等于所述目標文本的序列長度,所述第一矩陣中的元素用以表示所述目標文本中每個詞對其他詞的可關注權重,若所述目標文本中的一詞位于實體文本范圍內(nèi),該詞對第一詞的可關注權重大于對第二詞的可關注權重,所述第一詞包括該詞,還包括位于該詞與實體文本的起始位置之間的詞,所述第二詞為所述目標文本中除所述第一詞之外的其他詞;
利用所述第一矩陣生成命名實體識別模型,所述命名實體識別模型為對第一訓練數(shù)據(jù)進行訓練得到的,所述第一訓練數(shù)據(jù)包括訓練文本集合中每個文本對應的分詞的向量,且所述訓練文本集合中每個文本為標注實體標簽的文本;
將所述目標文本輸入所述命名實體識別模型,輸出所述目標文本對應的實體標簽的概率分布。
此外,根據(jù)本發(fā)明的至少一個實施例,所述確定目標文本的實體文本的起始位置包括:
對所述目標文本進行數(shù)據(jù)格式轉換和/或數(shù)據(jù)噪聲去除,得到第一文本;
對所述第一文本進行分詞,得到第一詞序列;
對所述第一詞序列進行詞片斷切分,將所述第一詞序列切分為第一詞片斷序列;
將所述第一詞片斷序列輸入第二訓練模型,得到所述實體文本的起始位置。
此外,根據(jù)本發(fā)明的至少一個實施例,對所述第一詞序列進行詞片斷切分包括:
建立第一初始模型,利用第二訓練數(shù)據(jù)對所述第一初始模型進行訓練,得到第一切分模型,所述第二訓練數(shù)據(jù)包括多組數(shù)據(jù),每組數(shù)據(jù)包括詞序列和對所述詞序列進行切分后的詞片斷序列;
利用所述第一切分模型對所述第一詞序列進行詞片斷切分。
此外,根據(jù)本發(fā)明的至少一個實施例,還包括獲取所述第二訓練模型的步驟,獲取所述第二訓練模型包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經(jīng)株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011340269.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





