[發(fā)明專(zhuān)利]一種雙通道聯(lián)合處理方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010048414.7 | 申請(qǐng)日: | 2020-01-16 |
| 公開(kāi)(公告)號(hào): | CN111274788A | 公開(kāi)(公告)日: | 2020-06-12 |
| 發(fā)明(設(shè)計(jì))人: | 宋彥;田元賀;王詠剛 | 申請(qǐng)(專(zhuān)利權(quán))人: | 創(chuàng)新工場(chǎng)(廣州)人工智能研究有限公司 |
| 主分類(lèi)號(hào): | G06F40/211 | 分類(lèi)號(hào): | G06F40/211;G06F40/117;G06F40/289;G06K9/62 |
| 代理公司: | 北京啟坤知識(shí)產(chǎn)權(quán)代理有限公司 11655 | 代理人: | 李琛 |
| 地址: | 510700 廣東省廣州*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 雙通道 聯(lián)合 處理 方法 裝置 | ||
本申請(qǐng)實(shí)施例的目的是提供一種用于分詞和詞性標(biāo)注系統(tǒng)的雙通道聯(lián)合處理方法和裝置。本申請(qǐng)實(shí)施的方法包括以下步驟:獲取輸入序列中包含的每個(gè)字對(duì)應(yīng)的上下文特征信息和知識(shí)信息;在特征通道和知識(shí)通道內(nèi),分別基于各個(gè)字的上下文特征和知識(shí)對(duì)于聯(lián)合標(biāo)簽的貢獻(xiàn)來(lái)建模并進(jìn)行加權(quán)計(jì)算,得到輸入序列的上下文特征向量和知識(shí)向量;通過(guò)將所述上下文特征向量和所述知識(shí)向量串聯(lián),得到所述輸入序列對(duì)應(yīng)的加權(quán)字序列向量,其中,所述加權(quán)字序列向量用于反映輸入序列包含的每個(gè)字對(duì)應(yīng)的上下文特征和知識(shí)對(duì)于聯(lián)合標(biāo)簽的貢獻(xiàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種用于分詞和詞性標(biāo)注系統(tǒng)的雙通道聯(lián)合處理方法和裝置。
背景技術(shù)
中文分詞和詞性標(biāo)注的聯(lián)合任務(wù)(Joint Chinese Word Segmentation andPart-of-speech Tagging),指把分詞和詞性標(biāo)注視為一個(gè)聯(lián)合任務(wù),即對(duì)輸入的中文字序列,同時(shí)進(jìn)行分詞和詞性標(biāo)注,而不是先分詞,再對(duì)分詞的結(jié)果進(jìn)行詞性標(biāo)注。
現(xiàn)有技術(shù)的方案中,面向中文分詞和詞性標(biāo)注的聯(lián)合任務(wù)的技術(shù)可以分為基于特征的傳統(tǒng)方法和深度學(xué)習(xí)方法。
基于特征的方法指,通過(guò)人工設(shè)計(jì)、選取特征的方法,對(duì)輸入文本進(jìn)行特征提取,基于這些特征對(duì)當(dāng)前字的聯(lián)合標(biāo)簽進(jìn)行判斷。常用的特征包括當(dāng)前字、前字、后字等。然而,這種方法的效果高度依賴(lài)于人工設(shè)計(jì)、提取的特征的質(zhì)量,而設(shè)計(jì)高質(zhì)量的特征提取方法非常困難。此外,特征提取的方法,對(duì)于因句意不同而造成的歧義,并沒(méi)有相應(yīng)的解決辦法。
近年來(lái),深度學(xué)習(xí)方法被逐漸應(yīng)用在中文分詞中。該方法能夠依據(jù)具體任務(wù)的特點(diǎn),自動(dòng)實(shí)現(xiàn)對(duì)文本特征的提取,免去了人工設(shè)計(jì)、提取特征的巨大成本。深度學(xué)習(xí)的識(shí)別效果遠(yuǎn)遠(yuǎn)超過(guò)了單純的傳統(tǒng)方法。一般來(lái)講,基于深度學(xué)習(xí)的聯(lián)合任務(wù)的系統(tǒng)均以基本的序列標(biāo)注模式為基礎(chǔ),具體包括以下三個(gè)模塊輸入嵌入層、上下文信息編碼層和解碼輸出層。
其中,輸入嵌入層把輸入的文本中的每個(gè)字映射到高維連續(xù)空間的字向量,并用這個(gè)新的字向量代表這個(gè)字的特征。上下文信息編碼層在字向量的基礎(chǔ)之上,提取每個(gè)字的上下文的信息,計(jì)算其它字的字向量對(duì)其的影響。該層的輸入為嵌入層的輸出(即一句話中的不同字的字向量),輸出為經(jīng)過(guò)上下文編碼的不同字向量。解碼輸出層對(duì)經(jīng)過(guò)上下文信息提取后的每一個(gè)字向量解碼,輸出預(yù)測(cè)的聯(lián)合標(biāo)簽。
然而,基于現(xiàn)有技術(shù)的方案一般直接將上下文特征向量和知識(shí)向量與字向量直接串聯(lián),而沒(méi)有考慮不同的上下文特征和知識(shí)對(duì)該字的聯(lián)合標(biāo)簽的貢獻(xiàn)的差異,使得那些貢獻(xiàn)小的或者自動(dòng)方法獲取的不準(zhǔn)確的上下文特征以及知識(shí),誤導(dǎo)模型去預(yù)測(cè)錯(cuò)誤的聯(lián)合標(biāo)簽。例如,對(duì)于語(yǔ)句子“他馬上功夫很好”,使用現(xiàn)有的Stanford CoreNLP Toolkits(斯坦福自然語(yǔ)言處理工具)分析后,得到的上下文特征錯(cuò)誤地把“馬上”(“立即”、“立刻”的意思)視為一個(gè)詞,而且其攜帶的詞性知識(shí)也被錯(cuò)誤的視為“副詞”,而不是正確地把其視為兩個(gè)詞“馬/上”(“馬的上面”的意思)。這樣一來(lái),這種不準(zhǔn)確的上下文特征和知識(shí)將會(huì)對(duì)聯(lián)合任務(wù)系統(tǒng)產(chǎn)生負(fù)面的影響。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例的目的是提供一種用于分詞和詞性標(biāo)注系統(tǒng)的雙通道聯(lián)合處理方法和裝置。
本申請(qǐng)實(shí)施例提供的一種用于分詞和詞性標(biāo)注系統(tǒng)的雙通道聯(lián)合處理方法,其中,所述方法包括以下步驟:
獲取輸入序列中包含的每個(gè)字對(duì)應(yīng)的上下文特征信息和知識(shí)信息;
在特征通道和知識(shí)通道內(nèi),分別基于各個(gè)字的上下文特征和知識(shí)對(duì)于聯(lián)合標(biāo)簽的貢獻(xiàn)來(lái)建模并進(jìn)行加權(quán)計(jì)算,得到輸入序列的上下文特征向量和知識(shí)向量;
通過(guò)將所述上下文特征向量和所述知識(shí)向量串聯(lián),得到所述輸入序列對(duì)應(yīng)的加權(quán)字序列向量,其中,所述加權(quán)字序列向量用于反映輸入序列包含的每個(gè)字對(duì)應(yīng)的上下文特征和知識(shí)對(duì)于聯(lián)合標(biāo)簽的貢獻(xiàn)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于創(chuàng)新工場(chǎng)(廣州)人工智能研究有限公司,未經(jīng)創(chuàng)新工場(chǎng)(廣州)人工智能研究有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010048414.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于自主學(xué)習(xí)群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標(biāo)種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護(hù)用H型鋼構(gòu)件
- 用于云環(huán)境的語(yǔ)義元聯(lián)合代理
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





