[發(fā)明專利]基于深度學(xué)習(xí)的實(shí)體識(shí)別方法、裝置、介質(zhì)及電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110965679.8 | 申請(qǐng)日: | 2021-08-20 |
| 公開(公告)號(hào): | CN113673247A | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設(shè)計(jì))人: | 魯冰青;丁川;葉凱;樊海東;王劍斌 | 申請(qǐng)(專利權(quán))人: | 江蘇曼荼羅軟件股份有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京力量專利代理事務(wù)所(特殊普通合伙) 11504 | 代理人: | 徐穎超 |
| 地址: | 214135 江蘇省無錫市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 實(shí)體 識(shí)別 方法 裝置 介質(zhì) 電子設(shè)備 | ||
本申請(qǐng)公開了一種基于深度學(xué)習(xí)的實(shí)體識(shí)別方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備,通過將輸入的自然句拆分為多個(gè)字向量,然后對(duì)多個(gè)字向量進(jìn)行特征提取得到每個(gè)字向量的特性信息,并且對(duì)多個(gè)字向量進(jìn)行雙向編碼,得到每個(gè)字向量的雙向編碼信息,最后根據(jù)多個(gè)字向量的特性信息和雙向編碼信息,綜合得到識(shí)別結(jié)果;即對(duì)自然句中的每個(gè)字進(jìn)行特性提取以及對(duì)每個(gè)字進(jìn)行雙向編碼,以獲取每個(gè)字的語義特征和上下文特征,從而可以準(zhǔn)確的識(shí)別命名實(shí)體。
技術(shù)領(lǐng)域
本申請(qǐng)涉及非結(jié)構(gòu)化文字實(shí)體識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的實(shí)體識(shí)別方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備。
背景技術(shù)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)為自然語言處理的一項(xiàng)基礎(chǔ)任務(wù)。早期基于規(guī)則和詞典,主要依賴語言學(xué)家根據(jù)上下文語義結(jié)構(gòu)歸納的模板。該方法對(duì)于難以歸納的總結(jié)無法解決,識(shí)別效果不明顯,且歸納總結(jié)過程代價(jià)比較大,所以學(xué)者們使用機(jī)器學(xué)習(xí)方法來解決,對(duì)NER問題分類3類小問題:特征選擇、機(jī)器學(xué)習(xí)策略、序列標(biāo)注等。在處理NER問題時(shí),使用大規(guī)模的標(biāo)注語料讓機(jī)器來訓(xùn)練模型,通過訓(xùn)練好的模型對(duì)測(cè)試語料進(jìn)行序列解碼等,得到命名實(shí)體。
但機(jī)器學(xué)習(xí)方法對(duì)文本特征提取要求較高,目前的機(jī)器學(xué)習(xí)方法參數(shù)巨大、運(yùn)算內(nèi)存占用較多,從而導(dǎo)致模型的運(yùn)算效果和效率不高,且識(shí)別精度不高。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,提出了本申請(qǐng)。本申請(qǐng)的實(shí)施例提供了一種基于深度學(xué)習(xí)的實(shí)體識(shí)別方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備,解決了上述機(jī)器學(xué)習(xí)方法的識(shí)別精度不高的問題。
根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種基于深度學(xué)習(xí)的實(shí)體識(shí)別方法,包括:對(duì)輸入的自然句拆分為多個(gè)字向量;其中所述多個(gè)字向量構(gòu)成所述自然句;對(duì)所述多個(gè)字向量分別進(jìn)行特征提取,得到每個(gè)字向量的特性信息;其中所述特征信息包括所述字向量的類別信息;對(duì)所述多個(gè)字向量分別進(jìn)行雙向編碼,得到每個(gè)字向量的雙向編碼信息;其中所述雙向編碼信息包括對(duì)應(yīng)的當(dāng)前字向量與所述當(dāng)前字向量的前一個(gè)字向量、所述當(dāng)前字向量的后一個(gè)字向量之間的關(guān)系信息;以及根據(jù)所述多個(gè)字向量的所述特征信息和所述雙向編碼信息,得到識(shí)別結(jié)果。
在一實(shí)施例中,在所述對(duì)所述多個(gè)字向量分別進(jìn)行特征提取之后,所述實(shí)體識(shí)別方法還包括:對(duì)所述特征信息進(jìn)行降維處理,得到降維后的特征信息;其中,所述根據(jù)所述多個(gè)字向量的所述特征信息和所述雙向編碼信息,得到識(shí)別結(jié)果包括:根據(jù)所述降維后的特征信息和所述雙向編碼信息,得到識(shí)別結(jié)果。
在一實(shí)施例中,所述對(duì)所述特征信息進(jìn)行降維處理包括:共享所述多個(gè)字向量的全局參數(shù)信息和注意力參數(shù)信息。
在一實(shí)施例中,所述對(duì)所述多個(gè)字向量分別進(jìn)行雙向編碼包括:將所述多個(gè)字向量的鏈?zhǔn)浇Y(jié)構(gòu)轉(zhuǎn)換為圖形結(jié)構(gòu);以及對(duì)所述圖形結(jié)構(gòu)中每?jī)蓚€(gè)字向量之間的編碼信息設(shè)置權(quán)重。
在一實(shí)施例中,所述將所述多個(gè)字向量的鏈?zhǔn)浇Y(jié)構(gòu)轉(zhuǎn)換為圖形結(jié)構(gòu)包括:在每?jī)蓚€(gè)字向量之間設(shè)置一個(gè)信息節(jié)點(diǎn);所述信息節(jié)點(diǎn)包括所述雙向編碼信息,且所述信息節(jié)點(diǎn)的字節(jié)長(zhǎng)度為預(yù)設(shè)的定值。
在一實(shí)施例中,所述在每?jī)蓚€(gè)字向量之間設(shè)置一個(gè)信息節(jié)點(diǎn)包括:當(dāng)兩個(gè)所述字向量之間不存在所述雙向編碼信息時(shí),將該兩個(gè)所述字向量之間的信息節(jié)點(diǎn)設(shè)置為預(yù)設(shè)的字節(jié)長(zhǎng)度的空向量。
在一實(shí)施例中,所述根據(jù)所述多個(gè)字向量的所述特征信息和所述雙向編碼信息,得到識(shí)別結(jié)果包括:根據(jù)所述多個(gè)字向量的所述特征信息和所述雙向編碼信息得到多條預(yù)測(cè)路徑;所述預(yù)測(cè)路徑表征所述多個(gè)字向量的排列順序;對(duì)所述多條預(yù)測(cè)路徑進(jìn)行評(píng)估,得到多個(gè)評(píng)估結(jié)果;以及選取所述多個(gè)評(píng)估結(jié)果中的最優(yōu)結(jié)果對(duì)應(yīng)的預(yù)測(cè)路徑作為所述識(shí)別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇曼荼羅軟件股份有限公司,未經(jīng)江蘇曼荼羅軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110965679.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





