[發(fā)明專利]一種基于NER識別情景喜劇對話幽默度的方法在審
| 申請?zhí)枺?/td> | 202111035246.9 | 申請日: | 2021-09-05 |
| 公開(公告)號: | CN113688622A | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計)人: | 王歡;夏茂晉;余強(qiáng);李雨茗 | 申請(專利權(quán))人: | 安徽清博大數(shù)據(jù)科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230031 安徽省合肥市蜀山經(jīng)濟(jì)開*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 ner 識別 情景 喜劇 對話 幽默 方法 | ||
本發(fā)明公開了一種基于NER識別情景喜劇對話幽默度的方法,所述方法包括以下步驟:步驟一:數(shù)據(jù)采集并進(jìn)行數(shù)據(jù)預(yù)處理,形成待識別文本信息;步驟二:RoBERTa預(yù)訓(xùn)練模型構(gòu)建二分類模型;步驟三:RoBERTa預(yù)訓(xùn)練模型構(gòu)建NER模型,將待識別文本信息中句子的每個字符按照命名實體標(biāo)注的方法進(jìn)行標(biāo)注,其中屬于幽默范疇的字符標(biāo)為1,不屬于幽默范疇的字符標(biāo)為0;步驟四:采用九折交叉驗證的方式,將句子中所有字詞中被標(biāo)注為1的字符所占比例與預(yù)設(shè)閾值進(jìn)行對比,若所占比例大于預(yù)設(shè)閾值則判定該句子是幽默,否則判定為非幽默。本發(fā)明能夠智能高效的對情景喜劇對話進(jìn)行幽默度識別,容錯率高。
技術(shù)領(lǐng)域
本發(fā)明屬于語言處理和人工智能領(lǐng)域,尤其涉及一種基于NER識別情景喜劇對話幽默度的方法。
背景技術(shù)
幽默是一種特殊的語言表達(dá)方式,在日常生活中扮演著化解尷尬、活躍氣氛、促進(jìn)交流的重要角色。而幽默計算是近年來自然語言處理領(lǐng)域的新興熱點之一,其主要研究如何基于計算機(jī)技術(shù)對幽默進(jìn)行識別、分類與生成,具有重要的理論和應(yīng)用價值。
幽默的產(chǎn)生往往依賴于上下文信息,如對話中的幽默通常需要一個鋪墊過程,相比于單句幽默,這類幽默的識別更加復(fù)雜且困難。在情景喜劇中,部分話語承擔(dān)了引人發(fā)笑的作用,通常稱其為笑點(英文為Punchline)。現(xiàn)有的情景喜劇對話幽默度識別主要是將問題定義為一個二分類任務(wù),利用原始二分類標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練。然而在情景喜劇中,單純的以對話中的句子為個體做文本分類效果往往很差,由于很多幽默標(biāo)簽的句子是在對話語境下的,使得傳統(tǒng)二分類步驟不能全面構(gòu)建文本特征。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的以上問題,提供一種基于NER識別情景喜劇對話幽默度的方法。
為實現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過以下技術(shù)方案實現(xiàn):
一種基于NER識別情景喜劇對話幽默度的方法,所述方法包括以下步驟:
步驟一:數(shù)據(jù)采集并進(jìn)行數(shù)據(jù)預(yù)處理,形成待識別文本信息;
步驟二:RoBERTa預(yù)訓(xùn)練模型構(gòu)建二分類模型;
步驟三:RoBERTa預(yù)訓(xùn)練模型構(gòu)建NER模型,將待識別文本信息中句子的每個字符按照命名實體標(biāo)注的方法進(jìn)行標(biāo)注,其中屬于幽默范疇的字符標(biāo)為1,不屬于幽默范疇的字符標(biāo)為0;
步驟四:采用九折交叉驗證的方式,將句子中所有字詞中被標(biāo)注為1的字符所占比例與預(yù)設(shè)閾值進(jìn)行對比,若所占比例大于預(yù)設(shè)閾值則判定該句子是幽默,否則判定為非幽默。
進(jìn)一步地,所述預(yù)設(shè)閾值為0.3。
進(jìn)一步地,所述步驟一具體包括:從情景喜劇對話中進(jìn)行文本信息采集,并對文本信息中非常規(guī)字符和不可識別字符進(jìn)行刪除。
進(jìn)一步地,所述步驟三中幽默范疇的分析采用注意力機(jī)制進(jìn)行識別。
進(jìn)一步地,所述RoBERTa預(yù)訓(xùn)練模型基于BERT預(yù)訓(xùn)練模型,對原BERT預(yù)訓(xùn)練模型的學(xué)習(xí)率峰值進(jìn)行調(diào)整,將Adam算法中的參數(shù)β2從0.999改為0.98。
進(jìn)一步地,所述步驟三中幽默范疇的分析具體包括:將待識別文本信息中句子的每個字符與預(yù)設(shè)幽默字符數(shù)據(jù)庫進(jìn)行比對,若關(guān)聯(lián)度超過80%,則定義為幽默范疇,否則相反。
本發(fā)明的有益效果是:
本發(fā)明通過利用RoBERTa預(yù)訓(xùn)練模型依次構(gòu)建二分類模型、NER模型,對語句進(jìn)行標(biāo)注,并利用九折交叉驗證的方式判斷句子中標(biāo)簽為1的字符數(shù)量占總字符比例,從而判斷該語句是否幽默,能夠智能高效的對情景喜劇對話進(jìn)行幽默度識別,容錯率高。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1是本發(fā)明的流程示意圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽清博大數(shù)據(jù)科技有限公司,未經(jīng)安徽清博大數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111035246.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





