[發(fā)明專利]一種基于樹狀網(wǎng)格記憶神經(jīng)網(wǎng)絡(luò)的序列特征提取方法有效
| 申請?zhí)枺?/td> | 201911398270.1 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111160009B | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設(shè)計)人: | 辛欣;王睿 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11639 | 代理人: | 王松 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 樹狀 網(wǎng)格 記憶 神經(jīng)網(wǎng)絡(luò) 序列 特征 提取 方法 | ||
本發(fā)明涉及一種基于樹狀網(wǎng)格記憶神經(jīng)網(wǎng)絡(luò)的序列特征提取方法,屬于自然語言處理技術(shù)領(lǐng)域。先通過嵌入技術(shù)將句子中的每個字表示為字級別的嵌入向量;再針對每個文字區(qū)間通過遞歸樹狀神經(jīng)網(wǎng)絡(luò)提取該文字區(qū)間的記憶向量和特征向量;再針對句子中的每個位置,基于所有以該位置為結(jié)尾的文字區(qū)間,提取該位置的記憶向量和特征向量;所述特征向量提取凡是能夠?qū)崿F(xiàn)遞歸性的文本序列特征;最后將每個位置的特征向量拼接在一起。所述方法能更好地提取句子的上下文特征;能夠基于自然語言的遞歸結(jié)構(gòu)對特征進(jìn)行篩選和融合,提取對于具體任務(wù)有用的特征;所述方法利用語言的內(nèi)在遞歸結(jié)構(gòu),可以完成多種自然語言處理領(lǐng)域的序列標(biāo)注形式任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于樹狀網(wǎng)格記憶神經(jīng)網(wǎng)絡(luò)的序列特征提取方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
在自然語言處理技術(shù)領(lǐng)域,許多任務(wù)都被歸結(jié)為序列標(biāo)注問題,并通過機(jī)器學(xué)習(xí)的方法進(jìn)行建模。在基于機(jī)器學(xué)習(xí)的序列標(biāo)注模型中,一個關(guān)鍵的問題是如何提取自然語言句子的序列特征。
自然語言處理技術(shù)中,依靠序列標(biāo)注模型的任務(wù)有命名實體識別、中文分詞、詞性標(biāo)注等,均為自然語言處理中的重要任務(wù)。其中,命名實體識別任務(wù)的目標(biāo)是識別出一個給定自然語言句子中以名稱為標(biāo)識的實體,包括地名、人名、組織機(jī)構(gòu)名等等。判斷自然語言句子中每個字是否是命名實體的開始、中間、或者結(jié)尾,可以將命名實體識別任務(wù)歸結(jié)為序列標(biāo)注問題。中文分詞任務(wù)的目標(biāo)是確定中文句子中詞的邊界,也可以通過確定某個字是否是開始、中間或結(jié)束的方式轉(zhuǎn)化為序列標(biāo)注問題。詞性標(biāo)注任務(wù)是判斷句子中的每個詞的詞性,本身就是序列標(biāo)注任務(wù)。因此,序列標(biāo)注問題在自然語言處理技術(shù)領(lǐng)域具有重要的意義。
自然語言處理領(lǐng)域的序列標(biāo)注問題一般通過機(jī)器學(xué)習(xí)的方法進(jìn)行建模。在機(jī)器學(xué)習(xí)中,由人工標(biāo)注出大量的數(shù)據(jù)集,然后將標(biāo)注好的數(shù)據(jù)集交給機(jī)器學(xué)習(xí)模型進(jìn)行學(xué)習(xí),從而獲得自動的序列標(biāo)注器。在各種不同的領(lǐng)域內(nèi),已經(jīng)有了大量公開的標(biāo)注好的數(shù)據(jù)。為了利用好這些標(biāo)注數(shù)據(jù),需要有好的序列標(biāo)注機(jī)器學(xué)習(xí)模型。
在序列標(biāo)注問題的機(jī)器學(xué)習(xí)模型中,一個關(guān)鍵的步驟是提取句子的序列特征表示。序列特征表示是指,對于句子中的每一個基本單元,提取一個能夠反映其上下文信息的特征向量。在英文句子中,該單元是詞;在中文句子中,該單元可以是詞也可以是字。
目前的序列特征提取方法通常為循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種,如長短期記憶網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)依次讀入序列中的每個單元,并更新其狀態(tài)向量。每個單元的狀態(tài)向量可作為該單元的上下文特征向量。這種方法的缺點在于,循環(huán)神經(jīng)網(wǎng)絡(luò)沿著句子線性地對每個單元進(jìn)行處理,忽略了自然語言句子內(nèi)在的遞歸性。自然語言中的句子通常是遞歸結(jié)構(gòu)的,從基本的字或者詞,組成簡單的短語,再進(jìn)一步加上各種成分,最后通過主謂賓等語法形式組成完整的句子。雖然人類在書寫和講話時的句子是線性的結(jié)構(gòu),但是人的大腦在理解句子時實際上也是按照這種遞歸的形式進(jìn)行理解。因此,在提取序列單元的上下文特征向量時,引入自然語言內(nèi)在的遞歸性,相比線性的提取方式,能夠更好地理解句子的含義,并幫助到中文分詞、命名實體識別等序列標(biāo)注任務(wù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對長短期記憶網(wǎng)絡(luò)無法利用語言內(nèi)在遞歸結(jié)構(gòu)的缺點,提出了一種基于樹狀網(wǎng)格記憶神經(jīng)網(wǎng)絡(luò)的序列特征提取方法,用于自然語言處理領(lǐng)域的序列標(biāo)注問題。
本發(fā)明的核心思想是:首先通過嵌入技術(shù)將句子中的每個字表示為字級別的嵌入向量;在字級別的嵌入向量基礎(chǔ)上,針對每個文字區(qū)間,通過遞歸形式的樹狀神經(jīng)網(wǎng)絡(luò)提取該文字區(qū)間的記憶向量和特征向量;其中,文字區(qū)間是指若干個連續(xù)的文字,最小的文字區(qū)間是一個文字組成的區(qū)間;然后,針對句子中的每個位置,基于所有以該位置為結(jié)尾的文字區(qū)間,提取該位置的記憶向量和特征向量;所述特征向量提取凡是能夠?qū)崿F(xiàn)遞歸性的文本序列特征提取,利用了語言內(nèi)在的遞歸結(jié)構(gòu);最后,將每個位置的特征向量拼接在一起,即為該句子的序列特征,基于句子的序列特征,在每個位置使用多分類模型判定該位置的標(biāo)注,從而解決序列標(biāo)注問題。
所述基于樹狀網(wǎng)格記憶神經(jīng)網(wǎng)絡(luò)的序列特征提取方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911398270.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種樹狀結(jié)構(gòu)的子項拖放方法
- 通過樹狀分子增強(qiáng)過濾進(jìn)行的水處理
- 處理流程圖的方法及裝置
- 一種超分子雜化肽類樹狀大分子自組裝體及其制備方法與應(yīng)用
- 一種生物響應(yīng)型診療一體化的肽類樹狀大分子組裝體及其制備方法和應(yīng)用
- 樹形藤本種植箱
- 一種不依賴關(guān)系數(shù)據(jù)庫的樹狀結(jié)構(gòu)存取運(yùn)算系統(tǒng)
- 一種移動執(zhí)法記錄儀本地可視化與管理方法
- 藥物不良反應(yīng)監(jiān)測方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 地理區(qū)域劃分管理方法、數(shù)據(jù)轉(zhuǎn)換方法及相關(guān)設(shè)備





