[發(fā)明專利]一種基于NER識別情景喜劇對話幽默度的方法在審

申請?zhí)枺?/td>	202111035246.9	申請日：	2021-09-05
公開（公告）號：	CN113688622A	公開（公告）日：	2021-11-23
發(fā)明（設(shè)計）人：	王歡;夏茂晉;余強(qiáng);李雨茗	申請（專利權(quán)）人：	安徽清博大數(shù)據(jù)科技有限公司
主分類號：	G06F40/211	分類號：	G06F40/211;G06F16/35
代理公司：	暫無信息	代理人：	暫無信息
地址：	230031 安徽省合肥市蜀山經(jīng)濟(jì)開***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 ner 識別情景喜劇對話幽默方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于NER識別情景喜劇對話幽默度的方法，所述方法包括以下步驟：步驟一：數(shù)據(jù)采集并進(jìn)行數(shù)據(jù)預(yù)處理，形成待識別文本信息；步驟二：RoBERTa預(yù)訓(xùn)練模型構(gòu)建二分類模型；步驟三：RoBERTa預(yù)訓(xùn)練模型構(gòu)建NER模型，將待識別文本信息中句子的每個字符按照命名實體標(biāo)注的方法進(jìn)行標(biāo)注，其中屬于幽默范疇的字符標(biāo)為1，不屬于幽默范疇的字符標(biāo)為0；步驟四：采用九折交叉驗證的方式，將句子中所有字詞中被標(biāo)注為1的字符所占比例與預(yù)設(shè)閾值進(jìn)行對比，若所占比例大于預(yù)設(shè)閾值則判定該句子是幽默，否則判定為非幽默。本發(fā)明能夠智能高效的對情景喜劇對話進(jìn)行幽默度識別，容錯率高。

技術(shù)領(lǐng)域

本發(fā)明屬于語言處理和人工智能領(lǐng)域，尤其涉及一種基于NER識別情景喜劇對話幽默度的方法。

背景技術(shù)

幽默是一種特殊的語言表達(dá)方式，在日常生活中扮演著化解尷尬、活躍氣氛、促進(jìn)交流的重要角色。而幽默計算是近年來自然語言處理領(lǐng)域的新興熱點之一，其主要研究如何基于計算機(jī)技術(shù)對幽默進(jìn)行識別、分類與生成，具有重要的理論和應(yīng)用價值。

幽默的產(chǎn)生往往依賴于上下文信息，如對話中的幽默通常需要一個鋪墊過程，相比于單句幽默，這類幽默的識別更加復(fù)雜且困難。在情景喜劇中，部分話語承擔(dān)了引人發(fā)笑的作用，通常稱其為笑點（英文為Punchline）。現(xiàn)有的情景喜劇對話幽默度識別主要是將問題定義為一個二分類任務(wù)，利用原始二分類標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練。然而在情景喜劇中，單純的以對話中的句子為個體做文本分類效果往往很差，由于很多幽默標(biāo)簽的句子是在對話語境下的，使得傳統(tǒng)二分類步驟不能全面構(gòu)建文本特征。

發(fā)明內(nèi)容

本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的以上問題，提供一種基于NER識別情景喜劇對話幽默度的方法。

為實現(xiàn)上述技術(shù)目的，達(dá)到上述技術(shù)效果，本發(fā)明通過以下技術(shù)方案實現(xiàn)：

一種基于NER識別情景喜劇對話幽默度的方法，所述方法包括以下步驟：

步驟一：數(shù)據(jù)采集并進(jìn)行數(shù)據(jù)預(yù)處理，形成待識別文本信息；

步驟二：RoBERTa預(yù)訓(xùn)練模型構(gòu)建二分類模型；

步驟三：RoBERTa預(yù)訓(xùn)練模型構(gòu)建NER模型，將待識別文本信息中句子的每個字符按照命名實體標(biāo)注的方法進(jìn)行標(biāo)注，其中屬于幽默范疇的字符標(biāo)為1，不屬于幽默范疇的字符標(biāo)為0；

步驟四：采用九折交叉驗證的方式，將句子中所有字詞中被標(biāo)注為1的字符所占比例與預(yù)設(shè)閾值進(jìn)行對比，若所占比例大于預(yù)設(shè)閾值則判定該句子是幽默，否則判定為非幽默。

進(jìn)一步地，所述預(yù)設(shè)閾值為0.3。

進(jìn)一步地，所述步驟一具體包括：從情景喜劇對話中進(jìn)行文本信息采集，并對文本信息中非常規(guī)字符和不可識別字符進(jìn)行刪除。

進(jìn)一步地，所述步驟三中幽默范疇的分析采用注意力機(jī)制進(jìn)行識別。

進(jìn)一步地，所述RoBERTa預(yù)訓(xùn)練模型基于BERT預(yù)訓(xùn)練模型，對原BERT預(yù)訓(xùn)練模型的學(xué)習(xí)率峰值進(jìn)行調(diào)整，將Adam算法中的參數(shù)β2從0.999改為0.98。

進(jìn)一步地，所述步驟三中幽默范疇的分析具體包括：將待識別文本信息中句子的每個字符與預(yù)設(shè)幽默字符數(shù)據(jù)庫進(jìn)行比對，若關(guān)聯(lián)度超過80%，則定義為幽默范疇，否則相反。

本發(fā)明的有益效果是：

本發(fā)明通過利用RoBERTa預(yù)訓(xùn)練模型依次構(gòu)建二分類模型、NER模型，對語句進(jìn)行標(biāo)注，并利用九折交叉驗證的方式判斷句子中標(biāo)簽為1的字符數(shù)量占總字符比例，從而判斷該語句是否幽默，能夠智能高效的對情景喜劇對話進(jìn)行幽默度識別，容錯率高。

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解，構(gòu)成本申請的一部分，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中：

圖1是本發(fā)明的流程示意圖。

具體實施方式

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽清博大數(shù)據(jù)科技有限公司，未經(jīng)安徽清博大數(shù)據(jù)科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111035246.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種大數(shù)據(jù)一體機(jī)
下一篇：用于大直徑容器縱、環(huán)縫的坡口及焊接方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】