[發(fā)明專利]一種多頻道聯(lián)合處理方法和裝置在審
| 申請?zhí)枺?/td> | 202010047500.6 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111274392A | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設(shè)計)人: | 宋彥;田元賀;王詠剛 | 申請(專利權(quán))人: | 創(chuàng)新工場(廣州)人工智能研究有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/253 |
| 代理公司: | 北京啟坤知識產(chǎn)權(quán)代理有限公司 11655 | 代理人: | 李琛 |
| 地址: | 510700 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 頻道 聯(lián)合 處理 方法 裝置 | ||
本申請實施例的目的是提供一種用于分詞和詞性標注系統(tǒng)的多頻道聯(lián)合處理方法和裝置。申請實施例提供的方法包括以下步驟:獲取輸入序列中包含的字序列和字序列對應(yīng)的長度信息;根據(jù)所述長度信息將各個字序列對應(yīng)于多個頻道,使得相同長度的字序列集合對應(yīng)于一個頻道;通過在各個頻道中,分別針對不同長度的字序列集合對于聯(lián)合標簽的貢獻大小分別建模并進行加權(quán)計算,得到各個頻道對應(yīng)的針對特定長度的加權(quán)字序列向量;通過將各個頻道對應(yīng)的長度加權(quán)向量進行加權(quán)串聯(lián),得到輸入序列對應(yīng)的加權(quán)字序列向量,其中,所述加權(quán)字序列向量用于反映輸入序列包含的不同長度的不同字序列集合對于聯(lián)合標簽的貢獻。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種用于分詞和詞性標注系統(tǒng)的多頻道聯(lián)合處理方法。
背景技術(shù)
中文分詞和詞性標注的聯(lián)合任務(wù)(Joint Chinese Word Segmentation andPart-of-speech Tagging),指把分詞和詞性標注視為一個聯(lián)合任務(wù),即對輸入的中文字序列,同時進行分詞和詞性標注,而不是先分詞,再對分詞的結(jié)果進行詞性標注。
現(xiàn)有技術(shù)的方案中,面向中文分詞和詞性標注的聯(lián)合任務(wù)的技術(shù)可以分為基于特征的傳統(tǒng)方法和深度學習方法。
基于特征的方法指,通過人工設(shè)計、選取特征的方法,對輸入文本進行特征提取,基于這些特征對當前字的聯(lián)合標簽進行判斷。常用的特征包括當前字、前字、后字等。然而,這種方法的效果高度依賴于人工設(shè)計、提取的特征的質(zhì)量,而設(shè)計高質(zhì)量的特征提取方法非常困難。此外,特征提取的方法,對于因句意不同而造成的歧義,并沒有相應(yīng)的解決辦法。
近年來,深度學習方法被逐漸應(yīng)用在中文分詞中。該方法能夠依據(jù)具體任務(wù)的特點,自動實現(xiàn)對文本特征的提取,免去了人工設(shè)計、提取特征的巨大成本。深度學習的識別效果遠遠超過了單純的傳統(tǒng)方法。一般來講,基于深度學習的聯(lián)合任務(wù)的系統(tǒng)均以基本的序列標注模式為基礎(chǔ),具體包括以下三個模塊輸入嵌入層、上下文信息編碼層和解碼輸出層。
其中,輸入嵌入層把輸入的文本中的每個字,以及與這個字相關(guān)的n-gram(即長度為n的字序列),分別映射到高維連續(xù)空間的字向量,以及n-gram向量,并把字向量與n-gram向量直接串聯(lián)(concatenate),得到一個新的字向量,并用這個新的字向量代表這個字的特征。上下文信息編碼層在字向量的基礎(chǔ)之上,提取每個字的上下文的信息,計算其它字的字向量對其的影響。該層的輸入為嵌入層的輸出(即一句話中的不同字的字向量),輸出為經(jīng)過上下文編碼的不同字向量。解碼輸出層對經(jīng)過上下文信息提取后的每一個字向量解碼,輸出預(yù)測的聯(lián)合標簽。
然而,基于現(xiàn)有技術(shù)的方案在把n-gram向量與字向量串聯(lián)時,沒有考慮不同n-gram對該字的聯(lián)合標簽的貢獻的差異,這會使得那些貢獻小的n-gram誤導(dǎo)模型去預(yù)測錯誤的聯(lián)合標簽。例如,對于以下語句:
(1)教育部分析數(shù)據(jù)-教育部_NN/分析_VV/數(shù)據(jù)_NN
(2)教育部分學生-教育_VV/部分_CD/學生_NN
其中,n-gram“教育部”在(1)中對聯(lián)合標簽的作用更大,而其在(2)中的作用則較小。如果不區(qū)分“教育部”在不同上下文下的貢獻的話,那么,這個n-gram將會誤導(dǎo)模型做出錯誤的聯(lián)合標簽預(yù)測。
發(fā)明內(nèi)容
本申請實施例的目的是提供一種用于分詞和詞性標注系統(tǒng)的多頻道聯(lián)合處理方法和裝置。
本申請實施例提供的一種用于分詞和詞性標注系統(tǒng)的多頻道聯(lián)合處理方法,其中,所述方法包括以下步驟:
獲取輸入序列中包含的字序列和字序列對應(yīng)的長度信息;
根據(jù)所述長度信息將各個字序列對應(yīng)于多個頻道,使得相同長度的字序列集合對應(yīng)于一個頻道;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于創(chuàng)新工場(廣州)人工智能研究有限公司,未經(jīng)創(chuàng)新工場(廣州)人工智能研究有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010047500.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計算機可讀存儲介質(zhì)
- 一種基于自主學習群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護用H型鋼構(gòu)件
- 用于云環(huán)境的語義元聯(lián)合代理





