[發(fā)明專利]一種幽默文本自動生成方法、系統(tǒng)、介質(zhì)、設(shè)備及終端在審
| 申請?zhí)枺?/td> | 202210576890.5 | 申請日: | 2022-05-25 |
| 公開(公告)號: | CN114896985A | 公開(公告)日: | 2022-08-12 |
| 發(fā)明(設(shè)計)人: | 沙灜;曹浩;吳明民;葛星 | 申請(專利權(quán))人: | 華中農(nóng)業(yè)大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 北京金智普華知識產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 張曉博 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 幽默 文本 自動 生成 方法 系統(tǒng) 介質(zhì) 設(shè)備 終端 | ||
1.一種幽默文本自動生成方法,其特征在于,所述幽默文本自動生成方法包括:根據(jù)獲取的新的幽默文本生成任務(wù),輸入上半句,自動生成對所述上半句翻轉(zhuǎn)的下半句;構(gòu)建基于生成對抗網(wǎng)絡(luò)的幽默文本生成模型AMQ-GAN;采用雙判別器,分別提取語義特征和幽默特征,由語義特征判別器指導(dǎo)語義通順、主題一致的語句生成,由幽默特征判別器指導(dǎo)具有不一致性、歧義性和雙關(guān)語的幽默特征的語句的生成;利用基于對比學(xué)習(xí)的數(shù)據(jù)增強以及結(jié)合prompt設(shè)置特定的幽默文本訓(xùn)練模板,使生成的文本突出幽默的特征。
2.如權(quán)利要求1所述的幽默文本自動生成方法,其特征在于,所述幽默文本自動生成方法包括以下步驟:
步驟一,采用基于SimCSE對比學(xué)習(xí)的數(shù)據(jù)增強技術(shù),對同一個句子生成多個不同的句向量;
步驟二,采用prompting技術(shù),添加對文本幽默效果進(jìn)行評判的第三句;
步驟三,在生成對抗的過程中,采用語義特征判別器和幽默特征判別器,對生成的句子分別進(jìn)行語義判別和幽默判別。
3.如權(quán)利要求2所述的幽默文本自動生成方法,其特征在于,所述步驟三中的語義特征判別器用于負(fù)責(zé)判別前后語句語義、主題是否一致以及是否通順;
所述幽默特征判別器用于通過不一致性、雙關(guān)、諧音的幽默特征判別文本的幽默質(zhì)量,兩個判別器的輸出得分經(jīng)加權(quán)共同指導(dǎo)生成器文本的生成。
4.如權(quán)利要求1所述的幽默文本自動生成方法,其特征在于,所述幽默文本自動生成方法還包括:
給定一個長度為m的前半句作為輸入:s=[w1,…,wi,…,wm],通過模型自動生成出一個長度為n的后半句s′=[w′1,…,w′j,…,w′n],使s與s′構(gòu)成的整個文本形成一個顛覆原有認(rèn)知,達(dá)到反差、諷刺效果的笑話;前后兩句話構(gòu)成一種毒雞湯文,通過模型輸出的笑點句產(chǎn)生幽默的效果。
5.如權(quán)利要求1所述的幽默文本自動生成方法,其特征在于,所述AMQ-GAN模型由預(yù)訓(xùn)練、對抗訓(xùn)練、語義特征和幽默特征提取三部分組成;
(1)預(yù)訓(xùn)練部分
預(yù)訓(xùn)練包括對生成器G、語義特征判別器和幽默特征判別器的預(yù)訓(xùn)練;生成器采用GPT-2模型,使用50萬條常見的對話語句對生成器進(jìn)行預(yù)訓(xùn)練,使生成器根據(jù)輸入生成通順、流暢的一般性回復(fù);采用語義特征判別器和幽默特征器,通過預(yù)訓(xùn)練生成器生成的文本分別與常見對話和幽默文本加入標(biāo)簽構(gòu)建數(shù)據(jù)集,前者構(gòu)建為語義數(shù)據(jù)集訓(xùn)練語義特征判別器,后者構(gòu)建為幽默數(shù)據(jù)集訓(xùn)練幽默特征判別器;
(2)對抗訓(xùn)練部分
采用的最優(yōu)化目標(biāo)函數(shù)如下式所示:
其中,x表示服從真實數(shù)據(jù)分布的真實樣本,D(x)表示判別器對樣本x判別為真實樣本的概率,G(z)是生成器生成的虛假樣本;對生成器的優(yōu)化就是最小化log(1-D(G(z))),使生成器生成的樣本能夠欺騙判別器,對判別器的優(yōu)化則是最大化log(D(x))+log(1-D(G(z))),使判別器能夠有效區(qū)分真實樣本和虛假樣本,通過生成器和判別器的訓(xùn)練迭代,促進(jìn)生成器生成能夠欺騙判別器的真實樣本;引入雙判別器對文本的語義特征和幽默特征分別判別;
(3)語義特征和幽默特征提取
引入語義特征和幽默特征提取模塊,用于指導(dǎo)生成器生成具有幽默特征和語義特征的文本;對生成器的語句分別從語義上和幽默性上進(jìn)行單詞級別的計算,以得到獎勵分?jǐn)?shù):
1)語義特征提取
主要通過話題一致性、語義通順程度和普遍性判別生成文本的語義特征。
①話題一致性
前后兩句組成的句向量詞義距離較近則討論的話題比較一致:
q1=cos(s,s′)。
②語義通順程度
語義通順程度是評價文本的語義基礎(chǔ)指標(biāo),通過計算給定文本主體句s生成笑點句s′的前向概率,以及給定笑點句s′生成主體句的后向概率來評估生成幽默文本的語義通順程度:
q2=logP(s′|s)+logPbackward(s|s′);
③普遍性
利用50w大規(guī)模語料數(shù)據(jù)集進(jìn)行作為常見詞語集,通過計算笑點句中的詞語出現(xiàn)在常見詞語集的概率計算該笑點句的普遍性:
q3=logP(wi)。
2)幽默特征提取
幽默特征判別器根據(jù)目標(biāo)幽默特征提取模塊來判斷文本幽默的質(zhì)量,提取的幽默特征如下:
①歧義性
歧義是產(chǎn)生笑話的重要條件之一,因此歧義特征可以作為笑話的一個重要組成部分;通過計算生成文本中的歧義詞數(shù)量來評價該文本的好笑程度;
其中ambiguities(wi)表示笑話中第i個詞具有不同義項的數(shù)量;
②語音相似性
押韻使兩個不同的字音調(diào)、韻母相同,產(chǎn)生笑點;通過計算主體句和笑點句中押韻詞的個數(shù),來評價生成文本的語音相似性;
其中rhymes(s,s′)表示主體句與笑點句中押韻詞的個數(shù),N代表幽默文本中主體句與笑點句的總詞數(shù);
③不一致性
分析前半句和后半句組成的詞語集Vs和Vs′,如果其中的兩個詞語之間的相似度較小,則認(rèn)為前后語句構(gòu)成笑話;
q6=min{cos(Vs,Vs′)}。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中農(nóng)業(yè)大學(xué),未經(jīng)華中農(nóng)業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210576890.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





