[發(fā)明專(zhuān)利]一種融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110765525.4 | 申請(qǐng)日: | 2021-07-07 |
| 公開(kāi)(公告)號(hào): | CN113609849A | 公開(kāi)(公告)日: | 2021-11-05 |
| 發(fā)明(設(shè)計(jì))人: | 仁慶道爾吉;張倩;張文靜;劉馨遠(yuǎn);張畢力格圖;郎佳珺;蘇依拉;李雷孝 | 申請(qǐng)(專(zhuān)利權(quán))人: | 內(nèi)蒙古工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F40/284 | 分類(lèi)號(hào): | G06F40/284;G06F40/30;G06F40/242;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 武漢菲翔知識(shí)產(chǎn)權(quán)代理有限公司 42284 | 代理人: | 劉谷紅 |
| 地址: | 010080 內(nèi)蒙古自治區(qū)呼和浩*** | 國(guó)省代碼: | 內(nèi)蒙古;15 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 先驗(yàn) 知識(shí) 模型 蒙古語(yǔ) 多模態(tài) 細(xì)粒度 情感 分析 方法 | ||
1.一種融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析方法,其特征在于,包括如下步驟:
步驟1:對(duì)含有表情符的中文和蒙古語(yǔ)情感語(yǔ)料庫(kù)進(jìn)行預(yù)處理;
步驟2:通過(guò)機(jī)器翻譯技術(shù)將含有表情符的中文語(yǔ)料翻譯成蒙古語(yǔ)語(yǔ)料;
步驟3:用融合jieba分詞和正則化的BPE分詞技術(shù)對(duì)蒙古語(yǔ)語(yǔ)料進(jìn)行分詞;
步驟4:將分詞得到的蒙古語(yǔ)文本語(yǔ)料和表情符表示成動(dòng)態(tài)詞向量并將二者拼接成新的詞向量;
步驟5:引入注意力機(jī)制對(duì)新的詞向量分配不同的權(quán)重,有側(cè)重點(diǎn)地提取情感特征;
步驟6:分別創(chuàng)建蒙古語(yǔ)情感詞典和表情符的情感詞典作為模型的先驗(yàn)知識(shí);
步驟7:將融合先驗(yàn)知識(shí)的模型在大規(guī)模的語(yǔ)料進(jìn)行預(yù)訓(xùn)練,得到融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析模型;
步驟8:將融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析模型的分析結(jié)果與單一網(wǎng)絡(luò)分析方法的分析結(jié)果就準(zhǔn)確率、精確率、召回率和F1值進(jìn)行對(duì)比和評(píng)價(jià)。
2.根據(jù)權(quán)利要求1所述融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析方法,其特征在于,所述步驟1中,預(yù)處理是對(duì)所獲取的語(yǔ)料進(jìn)行數(shù)據(jù)清洗,包括移除用戶(hù)名信息、移除URLS、移除特殊字符的步驟;所述步驟2中,通過(guò)已獲取的含有表情符的中文語(yǔ)料進(jìn)行機(jī)器翻譯轉(zhuǎn)化成蒙古語(yǔ)語(yǔ)料。
3.根據(jù)權(quán)利要求2所述融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析方法,其特征在于,采用jieba分詞和正則化的字節(jié)對(duì)編碼技術(shù)分詞技術(shù)對(duì)預(yù)處理的語(yǔ)料信息進(jìn)行切分操作,利用GloVe模型將文本語(yǔ)料和表情符訓(xùn)練生成對(duì)應(yīng)的詞向量,二者拼接形成新的詞向量,并對(duì)新的詞向量采用貪心處理方式進(jìn)一步發(fā)現(xiàn)未登錄詞,修正切分結(jié)果。
4.根據(jù)權(quán)利要求2所述融合先驗(yàn)知識(shí)模型的蒙古語(yǔ)多模態(tài)細(xì)粒度情感分析方法,其特征在于,所述利用GloVe訓(xùn)練生成詞向量的目標(biāo)函數(shù)J(W)為:
其中,W為詞向量矩陣,W∈R|V|*d,|V|表示詞的數(shù)量,d表示詞向量維數(shù);Xij表示詞wj在詞wi的語(yǔ)境下出現(xiàn)的次數(shù),Wi表示詞wi的詞向量,Wj表示詞wj的詞向量,f(Xij)是權(quán)重項(xiàng),用于去除低頻項(xiàng)噪聲,其表達(dá)式如下:
其中,Xmax為Xi中的最大值,Xi表示在詞wi的語(yǔ)境下出現(xiàn)的所有的詞的次數(shù),Xi=∑jXij;
對(duì)于原分詞結(jié)果γ=w1w2…wm,從頭開(kāi)始比較當(dāng)前詞wi的詞向量Wi與下一個(gè)詞wi+1的詞向量Wi+1的夾角余弦值,夾角余弦值公式為:
若該夾角余弦值大于預(yù)先給定的閾值λ,則認(rèn)為詞wi和詞wi+1組成新詞,組合后的詞向量為二者加和歸一化的結(jié)果,計(jì)算公式為:
利用python編譯器TensorFlow框架里面的拼接方法,將生成了文本詞向量和表情符詞向量進(jìn)行拼接操作,得到新的詞向量new_wordvector:
new_wordvector
=tensorflow.concat([Text_wordvector,emoji_wordvector],1)
利用該新詞的詞向量繼續(xù)進(jìn)行貪心地匹配,直到句子結(jié)束,得到修正后的切分結(jié)果其中m為原分詞結(jié)果Y中的詞向量的個(gè)數(shù),n為修正后的切分結(jié)果中的詞向量的個(gè)數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于內(nèi)蒙古工業(yè)大學(xué),未經(jīng)內(nèi)蒙古工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110765525.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種基于混合貝葉斯先驗(yàn)分布的可靠性驗(yàn)證測(cè)試方法
- 一種基于注意力先驗(yàn)的胃鏡視頻摘要方法
- 一種先驗(yàn)頻點(diǎn)排序的方法及裝置
- 一種混合相位子波提取方法
- 視頻預(yù)測(cè)方法和裝置、電子設(shè)備及車(chē)輛
- 視頻預(yù)測(cè)方法、視頻預(yù)測(cè)裝置、電子設(shè)備和車(chē)輛
- 一種應(yīng)用于神經(jīng)網(wǎng)絡(luò)的先驗(yàn)框確定方法及裝置
- 基于先驗(yàn)地圖信息的障礙物檢測(cè)方法、裝置和存儲(chǔ)介質(zhì)
- 處理傳感器信息以供對(duì)象檢測(cè)
- 一種病變圖像的病灶檢測(cè)方法及裝置
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





