[發(fā)明專利]基于反向翻譯的中文幽默分類模型在審
| 申請?zhí)枺?/td> | 202110088848.4 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112818118A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計(jì))人: | 孫世昶;孟佳娜;劉玉寧;朱彥霖 | 申請(專利權(quán))人: | 大連民族大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/58;G06F40/268;G06N3/04;G06N3/08 |
| 代理公司: | 大連智高專利事務(wù)所(特殊普通合伙) 21235 | 代理人: | 李猛 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 反向 翻譯 中文 幽默 分類 模型 | ||
1.一種基于反向翻譯的中文幽默分類模型,其特征在于,包括:
S1.文本輸入層;
S2.BERT嵌入層;
S3.漢語拼音特征嵌入層;
S4.文本詞性特征嵌入層;
S5.特征融合層;
S6.BiGRU層;
S7.全連接層,最終由全連接層完成對中文文本幽默的分類輸出。
2.如權(quán)利要求1所述的一種基于反向翻譯的中文幽默分類模型,其特征在于,所述文本輸入層以句子為輸入。
3.如權(quán)利要求1所述的一種基于反向翻譯的中文幽默分類模型,其特征在于,所述漢語拼音特征嵌入層包括以下步驟:
漢字轉(zhuǎn)拼音:將所要表征的句子中的每個漢字轉(zhuǎn)換為漢語拼音;
獲取唯一字符集:每個字符對應(yīng)一個整數(shù)作為它的ID;
拼音向量化:根據(jù)以上兩步的工作,將需要轉(zhuǎn)換的文本進(jìn)行拼音向量化。
4.如權(quán)利要求1所述的一種基于反向翻譯的中文幽默分類模型,其特征在于,所述文本詞性特征嵌入層中,使用jieba工具將文本導(dǎo)入停用詞庫,對文本中的句子進(jìn)行分詞操作,然后提取所有詞性并轉(zhuǎn)化為詞性特征向量。
5.如權(quán)利要求1所述的一種基于反向翻譯的中文幽默分類模型,其特征在于,所述特征融合層中,將BERT模型提取的特征向量矩陣、通過反向翻譯方法對比得出的漢語拼音特征以及文本詞性特征向量進(jìn)行特征融合,形成了多特征的模式,在深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練;將文本輸入層的樣本句子經(jīng)過BERT模型生成的特征向量矩陣為V,與該樣本句子對應(yīng)的領(lǐng)域性特征融合句子的公式可用公式4.1表示為:
上面公式中,W表示產(chǎn)生的新的特征向量,f1表示詞向量特征,f2表示漢語拼音特征。
6.如權(quán)利要求1所述的一種基于反向翻譯的中文幽默分類模型,其特征在于,所述BiGRU層包括前向GRU層和后向GRU層,利用正反向神經(jīng)網(wǎng)絡(luò)對特征融合層融合輸出的特征向量矩陣W進(jìn)行上下文學(xué)習(xí),對文本進(jìn)行更深層次的特征提取操作。
7.如權(quán)利要求5述的一種基于反向翻譯的中文幽默分類模型,其特征在于,所述的反向翻譯方法如下,將中文幽默數(shù)據(jù)集運(yùn)用機(jī)器翻譯的方法翻譯成英文數(shù)據(jù)集,再將英文數(shù)據(jù)集翻譯回中文數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連民族大學(xué),未經(jīng)大連民族大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110088848.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





