[發(fā)明專利]基于幽默度的文本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011144840.7 | 申請(qǐng)日: | 2020-10-23 |
| 公開(公告)號(hào): | CN112214602A | 公開(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計(jì))人: | 馬建 | 申請(qǐng)(專利權(quán))人: | 中國(guó)平安人壽保險(xiǎn)股份有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/205 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路5033號(hào)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 幽默 文本 分類 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種基于幽默度的文本分類方法,其特征在于,所述方法包括:
獲取第一原始文本訓(xùn)練集、替換詞對(duì)集及原始類別集,利用所述替換詞對(duì)集替換所述第一原始文本訓(xùn)練集內(nèi)的原始文本,得到第二原始文本訓(xùn)練集;
利用所述替換詞對(duì)集,對(duì)所述原始類別集進(jìn)行聚類操作,得到標(biāo)準(zhǔn)類別集;
組合所述標(biāo)準(zhǔn)類別集及所述第一原始文本訓(xùn)練集得到第一標(biāo)準(zhǔn)文本訓(xùn)練集,及組合所述標(biāo)準(zhǔn)類別集及所述第二原始文本訓(xùn)練集得到第二標(biāo)準(zhǔn)文本訓(xùn)練集;
接收用戶對(duì)所述第一標(biāo)準(zhǔn)文本訓(xùn)練集及所述第二標(biāo)準(zhǔn)文本訓(xùn)練集的幽默度評(píng)級(jí),得到幽默度級(jí)別集;
利用所述第一標(biāo)準(zhǔn)文本訓(xùn)練集、所述第二標(biāo)準(zhǔn)文本訓(xùn)練集及所述幽默度級(jí)別集,訓(xùn)練預(yù)構(gòu)建的文本分類模型;
接收待分類文本,利用訓(xùn)練完成的所述文本分類模型對(duì)所述待分類文本進(jìn)行類型評(píng)級(jí),根據(jù)所述類型評(píng)級(jí)得到分類結(jié)果。
2.如權(quán)利要求1所述的基于幽默度的文本分類方法,其特征在于,所述利用所述替換詞對(duì)集替換所述第一原始文本訓(xùn)練集內(nèi)的原始文本,得到第二原始文本訓(xùn)練集,包括:
在所述第一原始文本訓(xùn)練集內(nèi),查詢?cè)谒鎏鎿Q詞對(duì)集中出現(xiàn)的詞語,得到待替換詞對(duì)集;
利用所述待替換詞對(duì)集,對(duì)所述第一原始文本訓(xùn)練集中的詞語執(zhí)行替換操作,得到所述第二原始文本訓(xùn)練集。
3.如權(quán)利要求2所述的基于幽默度的文本分類方法,其特征在于,所述利用所述替換詞對(duì)集,對(duì)所述原始類別集進(jìn)行聚類操作,得到標(biāo)準(zhǔn)類別集,之前還包括:
利用預(yù)構(gòu)建的替換模板,生成與所述待替換詞對(duì)集對(duì)應(yīng)的替換日志集;
將所述替換日志集添加至所述第一原始文本訓(xùn)練集及所述第二原始文本訓(xùn)練集。
4.如權(quán)利要求3中所述的基于幽默度的文本分類方法,其特征在于,所述組合所述標(biāo)準(zhǔn)類別集及所述第一原始文本訓(xùn)練集得到第一標(biāo)準(zhǔn)文本訓(xùn)練集,及組合所述標(biāo)準(zhǔn)類別集及所述第二原始文本訓(xùn)練集得到第二標(biāo)準(zhǔn)文本訓(xùn)練集,包括:
從所述標(biāo)準(zhǔn)類別集中查找所述待替換詞對(duì)集的所屬類別集,將所述所屬類別集添加至所述替換日志集中;
將添加后的所述替換日志集,分別與所述第一原始文本訓(xùn)練集及所述第二原始文本訓(xùn)練集進(jìn)行結(jié)合,得到所述第一標(biāo)準(zhǔn)文本訓(xùn)練集及所述第二標(biāo)準(zhǔn)文本訓(xùn)練集。
5.如權(quán)利要求1所述的基于幽默度的文本分類方法,其特征在于,所述利用所述替換詞對(duì)集,對(duì)所述原始類別集進(jìn)行聚類操作,得到標(biāo)準(zhǔn)類別集,包括:
根據(jù)用戶設(shè)置的聚類數(shù),利用預(yù)設(shè)的聚類算法及所述替換詞對(duì)集,對(duì)所述原始類別集進(jìn)行聚類操作,得到所述標(biāo)準(zhǔn)類別集。
6.如權(quán)利要求1所述的基于幽默度的文本分類方法,其特征在于,所述利用所述第一標(biāo)準(zhǔn)文本訓(xùn)練集、所述第二標(biāo)準(zhǔn)文本訓(xùn)練集及所述幽默度級(jí)別集,訓(xùn)練預(yù)構(gòu)建的文本分類模型之前,還包括:
利用雙向編碼器表征量構(gòu)建向量轉(zhuǎn)化模塊;
利用所述雙向編碼器表征量改進(jìn)預(yù)構(gòu)建的文本匹配模型,得到幽默度評(píng)級(jí)模塊;
組合所述向量轉(zhuǎn)化模塊及所述幽默度評(píng)級(jí)模塊,得到所述文本分類模型。
7.如權(quán)利要求6所述的基于幽默度的文本分類方法,其特征在于,所述利用所述第一標(biāo)準(zhǔn)文本訓(xùn)練集、所述第二標(biāo)準(zhǔn)文本訓(xùn)練集及所述幽默度級(jí)別集,訓(xùn)練預(yù)構(gòu)建的文本分類模型,包括:
利用所述向量轉(zhuǎn)化模塊,將所述第一標(biāo)準(zhǔn)文本訓(xùn)練集及所述第二標(biāo)準(zhǔn)文本訓(xùn)練集轉(zhuǎn)化為第一文本向量訓(xùn)練集及第二文本向量訓(xùn)練;
利用所述幽默度評(píng)級(jí)模塊,預(yù)測(cè)所述第一文本向量訓(xùn)練集及第二文本向量訓(xùn)練集的幽默度,得到預(yù)測(cè)幽默度集;
計(jì)算所述預(yù)測(cè)幽默度集與所述幽默度級(jí)別集的誤差值,若所述誤差值大于或等于預(yù)設(shè)的誤差閾值,調(diào)整所述向量轉(zhuǎn)化模塊及所述幽默度評(píng)分模塊的內(nèi)部參數(shù);
直至所述誤差值小于所述誤差閾值,得到訓(xùn)練完成的文本分類模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)平安人壽保險(xiǎn)股份有限公司,未經(jīng)中國(guó)平安人壽保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011144840.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于對(duì)話知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)與小數(shù)據(jù)相關(guān)分析實(shí)現(xiàn)對(duì)話的方法和系統(tǒng)
- 基于幽默生成的情感交互方法和機(jī)器人系統(tǒng)
- 基于幽默識(shí)別的情感交互方法和機(jī)器人系統(tǒng)
- 一種基于神經(jīng)網(wǎng)絡(luò)和幽默特征的幽默識(shí)別方法
- 基于人工智能的幽默生成與情感交互方法及機(jī)器人系統(tǒng)
- 一種外部知識(shí)增強(qiáng)的幽默文本生成方法
- 基于反向翻譯的中文幽默分類模型
- 幽默玩具眼鏡
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





