[發(fā)明專利]命名實體的識別方法和設(shè)備、以及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910979122.2 | 申請日: | 2019-10-15 |
| 公開(公告)號: | CN112668333A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設(shè)計)人: | 孟函可;祝官文 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 北京匯思誠業(yè)知識產(chǎn)權(quán)代理有限公司 11444 | 代理人: | 馮偉 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 命名 實體 識別 方法 設(shè)備 以及 計算機 可讀 存儲 介質(zhì) | ||
本申請實施例提供了一種命名實體的識別方法和設(shè)備,和自然語言處理NLP技術(shù)相關(guān),可以應(yīng)用于人工智能(Artificial Intelligence,AI)領(lǐng)域的語音識別,具體的,可以應(yīng)用于語音助手等應(yīng)用。本申請實施例提供的命名實體的識別方法包括:獲取待識別文本;確定用于識別所述待識別文本中的命名實體的命名實體識別模型所應(yīng)用的場景類型;將所述待識別文本和所述場景類型輸入所述命名實體識別模型;獲取所述命名實體識別模型的輸出信息,以確定所述命名實體識別模型針對所述場景類型在所述待識別文本中識別出的命名實體。本申請實施例通過將場景信息嵌入至命名實體模型的輸入信息,提高了命名實體識別模型在不同使用場景下識別出命名實體的概率。
技術(shù)領(lǐng)域
本申請涉及命名實體識別技術(shù)領(lǐng)域,特別涉及命名實體的識別方法和設(shè)備、以及計算機可讀存儲介質(zhì)。
背景技術(shù)
命名實體識別,又名實體識別或NER,是自然語言處理中的一項基礎(chǔ)任務(wù),應(yīng)用范圍非常廣泛。命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構(gòu)名、日期時間、專有名詞等。NER系統(tǒng)就是從非結(jié)構(gòu)化的輸入文本中抽取出上述實體,并且可以按照業(yè)務(wù)需求識別出更多類別的實體?,F(xiàn)有相關(guān)技術(shù)中的命名實體的識別方法,通常僅針對某種特定的應(yīng)用場景訓(xùn)練命名實體識別模型,針對不同的場景需要采用大量對應(yīng)場景下的語料進行訓(xùn)練,分別訓(xùn)練多個識別模型以適用于不同場景,訓(xùn)練過程復(fù)雜,模型的適應(yīng)性不強。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N命名實體的識別方法和設(shè)備、以及計算機可讀存儲介質(zhì),以用于使命名實體識別模型能夠應(yīng)用在不同的場景,通過將場景信息嵌入至命名實體模型的輸入信息,提高了命名實體識別模型在不同使用場景下識別出命名實體的概率。
第一方面,本申請?zhí)峁┝艘环N命名實體的識別方法,以用于識別文本中的命名實體。命名實體(Named Entity,或簡稱實體)指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構(gòu)名、日期時間、專有名詞等,更廣泛的實體還包括數(shù)字、貨幣、地址等。
本申請?zhí)峁┑拿麑嶓w的識別方法可以應(yīng)用于正式的識別場景類型中,例如,為語音助手提供文本的命名實體識別。
本申請?zhí)峁┑拿麑嶓w的識別方法還可以應(yīng)用于對命名實體識別模型進行訓(xùn)練的過程中,在應(yīng)用于訓(xùn)練過程中時,在應(yīng)用本申請?zhí)峁┑姆椒ㄗR別出訓(xùn)練文本中的命名實體之后,與訓(xùn)練文本中預(yù)先標(biāo)注出的命名實體進行對比,根據(jù)對比結(jié)果調(diào)整命名實體識別模型中的參數(shù)。
具體而言,第一方面提供的命名實體的識別方法包括:
獲取待識別文本;確定用于識別所述待識別文本中的命名實體的命名實體識別模型所應(yīng)用的場景類型;將所述待識別文本和所述場景類型輸入所述命名實體識別模型;獲取所述命名實體識別模型的輸出信息,以確定所述命名實體識別模型針對所述場景類型在所述待識別文本中識別出的命名實體??蛇x的,待識別文本可以是通過語音轉(zhuǎn)換成文本之后得到的文本,也可以是預(yù)先標(biāo)注有命名實體標(biāo)簽的訓(xùn)練樣本文本,待識別文本可以包括中文、數(shù)字、符號、英文等字符。
命名實體識別(Named Entity Recongition,簡稱NER)模型(也可以稱為命名實體識別系統(tǒng))可以從上述待識別文本中抽取出上述命名實體,并且可以按照業(yè)務(wù)需求識別出更多類別的命名實體。命名實體識別模型可以采用現(xiàn)有相關(guān)技術(shù)中基于特征模板的方法、基于神經(jīng)網(wǎng)絡(luò)的方法等實施方式的模型等,在一種可選的示例中,命名實體識別模型可以采用Word Embedding(詞嵌入)+LSTM(長短期記憶網(wǎng)絡(luò))/BiLSTM(雙向長短期記憶網(wǎng)絡(luò))+CRF(條件隨機場)的模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910979122.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





