[發(fā)明專利]基于深度可分離卷積的語(yǔ)義特征處理方法、裝置及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010912076.7 | 申請(qǐng)日: | 2020-09-02 |
| 公開(kāi)(公告)號(hào): | CN112052687A | 公開(kāi)(公告)日: | 2020-12-08 |
| 發(fā)明(設(shè)計(jì))人: | 張輝極;趙偉;鄭偉斌;李文瑞;韓冰;歐榮安;賈東劍;趙建強(qiáng) | 申請(qǐng)(專利權(quán))人: | 廈門(mén)市美亞柏科信息股份有限公司 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/279;G06F16/332;G06F16/33;G06K9/62 |
| 代理公司: | 廈門(mén)福貝知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35235 | 代理人: | 陳遠(yuǎn)洋 |
| 地址: | 361000 福建省廈門(mén)市思明*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 可分離 卷積 語(yǔ)義 特征 處理 方法 裝置 介質(zhì) | ||
1.一種基于深度可分離卷積的語(yǔ)義特征處理方法,其特征在于,該方法包括:
預(yù)處理步驟,獲取聊天數(shù)據(jù),并將所述聊天數(shù)據(jù)按照發(fā)送時(shí)間進(jìn)行排序,將排序后的聊天數(shù)據(jù)使用訓(xùn)練后的詞向量模型進(jìn)行分詞得到分詞集合,將所述分詞集合預(yù)處理為片段詞嵌入矩陣;
特征提取步驟,使用深度可分離卷積的不同高度的卷積核對(duì)片段詞嵌入矩陣進(jìn)行特征提取得到二維特征張量,將所述二維特征張量進(jìn)行拼接后得到三維特征張量;
特征融合步驟,使用多個(gè)一維可分離卷積核分別提取從三維特征張量中每個(gè)通道的句子特征,再通過(guò)1*1卷積核對(duì)所述句子特征進(jìn)行聚合,使用一維最大池化操作提取出每個(gè)卷積核輸出的最大值,將所有最大值拼接得到聊天文本的語(yǔ)義特征向量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述詞向量模型的訓(xùn)練過(guò)程包括:提取移動(dòng)設(shè)備中的所有聊天數(shù)據(jù),所述聊天數(shù)據(jù)包括個(gè)人聊天數(shù)據(jù)和群組聊天數(shù)據(jù);將所述聊天數(shù)據(jù)通過(guò)分詞工具進(jìn)行分詞為[詞1詞2詞3...];將所有分詞后的聊天數(shù)據(jù)拼接成二維數(shù)組[[文本1],[文本2],[文本3],…],數(shù)組長(zhǎng)度為聊天數(shù)據(jù)的總數(shù)量;使用二維數(shù)組[[文本1],[文本2],[文本3],…]訓(xùn)練Word2Vec詞向量模型,詞向量長(zhǎng)度設(shè)置為VecLength,訓(xùn)練完成后每個(gè)詞均對(duì)應(yīng)長(zhǎng)度為VecLength的數(shù)值稠密向量,實(shí)現(xiàn)文本的向量化。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲得片段詞嵌入矩陣的過(guò)程為:對(duì)待提取語(yǔ)義特征向量的所有聊天數(shù)據(jù)按照設(shè)定的通道維度K分為個(gè)子片段,L為聊天數(shù)據(jù)的總長(zhǎng)度,每個(gè)子片段含K個(gè)聊天句,其中運(yùn)算符表示向上取整操作;對(duì)每個(gè)子片段中的每個(gè)聊天句使用分詞工具進(jìn)行分詞,得到分詞集合Wi={w1,w2,...,wn};
將所述分詞集合中的每個(gè)詞與所述Word2Vec詞向量模型進(jìn)行匹配得到集合Wi的詞嵌入矩陣EDocLength×VecLength,矩陣維度為DocLength*VecLength,其中,DocLength為經(jīng)驗(yàn)設(shè)定的句子最大長(zhǎng)度,超過(guò)該長(zhǎng)度的句子截?cái)啵蛔銊t補(bǔ)0,VecLength為詞向量長(zhǎng)度,K個(gè)句子詞嵌入矩陣按照通道維度拼接后得到一個(gè)維度為DocLength*VecLength*K的片段詞嵌入矩陣。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述得到三維特征張量的為:采用K個(gè){n,m,p}*VecLength*1的卷積核對(duì)片段詞嵌入矩陣的K個(gè)維度分別進(jìn)行卷積,卷積步長(zhǎng)為1,則輸出維度為(DocLength-{n,m,p})/S+1的列向量,K個(gè)維度計(jì)算完成后拼接成維度為((DocLength-{n,m,p})/S+1)*1*K的張量;采用256個(gè)尺寸為1*1*K的卷積核對(duì)((DocLength-{n,m,p})/S+1)*1*K進(jìn)行一維卷積操作,共得到256個(gè)維度為((DocLength-{n,m,p})/S+1)*1的二維張量,將256個(gè)二維張量進(jìn)行拼接得到尺寸為((DocLength-{n,m,p})/S+1)*1*256的三維張量。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述得到聊天文本的語(yǔ)義特征向量的過(guò)程為:通過(guò)一維最大池化算子計(jì)算所述三維張量((DocLength-{n,m,p})/S+1)*1*256的第一維度上的最大值,將該最大值作為該維度的最顯著語(yǔ)義特征輸出,通過(guò)該操作將n,m,p三個(gè)尺度的深度可分離卷積運(yùn)算結(jié)果均壓縮至1*256的二維張量,作為三個(gè)尺度的輸出特征張量;將輸出的三個(gè)1*256張量沿著第二維度進(jìn)行拼接得到維度為1*768的張量,作為輸出的該子片段的語(yǔ)義特征向量,將子片段的語(yǔ)義特征向量進(jìn)行拼接后得聊天文本的語(yǔ)義特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門(mén)市美亞柏科信息股份有限公司,未經(jīng)廈門(mén)市美亞柏科信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010912076.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





