[發明專利]一種基于NER識別情景喜劇對話幽默度的方法在審
| 申請號: | 202111035246.9 | 申請日: | 2021-09-05 |
| 公開(公告)號: | CN113688622A | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 王歡;夏茂晉;余強;李雨茗 | 申請(專利權)人: | 安徽清博大數據科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230031 安徽省合肥市蜀山經濟開*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ner 識別 情景 喜劇 對話 幽默 方法 | ||
1.一種基于NER識別情景喜劇對話幽默度的方法,其特征在于:所述方法包括以下步驟:
步驟一:數據采集并進行數據預處理,形成待識別文本信息;
步驟二:RoBERTa預訓練模型構建二分類模型;
步驟三:RoBERTa預訓練模型構建NER模型,將待識別文本信息中句子的每個字符按照命名實體標注的方法進行標注,其中屬于幽默范疇的字符標為1,不屬于幽默范疇的字符標為0;
步驟四:采用九折交叉驗證的方式,將句子中所有字詞中被標注為1的字符所占比例與預設閾值進行對比,若所占比例大于預設閾值則判定該句子是幽默,否則判定為非幽默。
2.根據權利要求1所述的一種基于NER識別情景喜劇對話幽默度的方法,其特征在于:所述預設閾值為0.3。
3.根據權利要求1所述的一種基于NER識別情景喜劇對話幽默度的方法,其特征在于:所述步驟一具體包括:從情景喜劇對話中進行文本信息采集,并對文本信息中非常規字符和不可識別字符進行刪除。
4.根據權利要求1所述的一種基于NER識別情景喜劇對話幽默度的方法,其特征在于:所述步驟三中幽默范疇的分析采用注意力機制進行識別。
5.根據權利要求1所述的一種基于NER識別情景喜劇對話幽默度的方法,其特征在于:所述RoBERTa預訓練模型基于BERT預訓練模型,對原BERT預訓練模型的學習率峰值進行調整,將Adam算法中的參數β2從0.999改為0.98。
6.根據權利要求1所述的一種基于NER識別情景喜劇對話幽默度的方法,其特征在于:所述步驟三中幽默范疇的分析具體包括:將待識別文本信息中句子的每個字符與預設幽默字符數據庫進行比對,若關聯度超過80%,則定義為幽默范疇,否則相反。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽清博大數據科技有限公司,未經安徽清博大數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111035246.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大數據一體機
- 下一篇:用于大直徑容器縱、環縫的坡口及焊接方法





