[發(fā)明專(zhuān)利]一種彈幕文本中情感詞的分類(lèi)方法、裝置及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011418248.1 | 申請(qǐng)日: | 2020-12-07 |
| 公開(kāi)(公告)號(hào): | CN112507115B | 公開(kāi)(公告)日: | 2023-02-03 |
| 發(fā)明(設(shè)計(jì))人: | 吳渝;于磊;楊杰;張運(yùn)凱 | 申請(qǐng)(專(zhuān)利權(quán))人: | 重慶郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/242;G06F40/289 |
| 代理公司: | 成都行之專(zhuān)利代理事務(wù)所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 400000 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 彈幕 文本 情感 分類(lèi) 方法 裝置 存儲(chǔ) 介質(zhì) | ||
1.一種彈幕文本中情感詞的分類(lèi)方法,其特征在于,包括:
步驟S1、對(duì)Python爬取到的彈幕數(shù)據(jù)進(jìn)行預(yù)處理,得到待分類(lèi)彈幕數(shù)據(jù);
步驟S2、判斷待分類(lèi)彈幕數(shù)據(jù)中是否包含情感詞;
步驟S3、若步驟S2的判定結(jié)果為:不包含,則利用GRU分類(lèi)器對(duì)待分類(lèi)彈幕數(shù)據(jù)進(jìn)行分類(lèi)得到分類(lèi)結(jié)果;
步驟S4、若步驟S2的判定結(jié)果為:包含,則利用構(gòu)建的彈幕情感分類(lèi)模型對(duì)待分類(lèi)彈幕數(shù)據(jù)進(jìn)行分類(lèi)得到情感分類(lèi)結(jié)果;
所述彈幕情感分類(lèi)模型的構(gòu)建和分類(lèi)過(guò)程為:
步驟A、先構(gòu)造彈幕文本領(lǐng)域的七維彈幕情感詞典,并在所述七維彈幕情感詞典基礎(chǔ)上,構(gòu)造文本情感計(jì)算分類(lèi)器計(jì)算彈幕數(shù)據(jù)中的情感詞的情感總值;
步驟B、采用模型融合的集成學(xué)習(xí)策略構(gòu)造彈幕情感分類(lèi)模型,將文本情感計(jì)算分類(lèi)器、樸素貝葉斯分類(lèi)器和GRU分類(lèi)器作為基分類(lèi)器;
步驟C、將待分類(lèi)彈幕數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,并用訓(xùn)練集分別對(duì)各個(gè)基分類(lèi)器進(jìn)行訓(xùn)練,得到擬合好的各基分類(lèi)器;
步驟D、將所述驗(yàn)證集輸入到擬合好的各基分類(lèi)器中,并調(diào)整相應(yīng)參數(shù),得到驗(yàn)證后的各基分類(lèi)器,最終構(gòu)造出彈幕情感分類(lèi)模型;
步驟E、將待分類(lèi)彈幕數(shù)據(jù)輸入到驗(yàn)證后的彈幕情感分類(lèi)模型中,根據(jù)各個(gè)基學(xué)習(xí)器得到的結(jié)果進(jìn)行投票融合輸出最終情感分類(lèi)結(jié)果;
步驟A中根據(jù)所述構(gòu)造的文本情感計(jì)算分類(lèi)器計(jì)算彈幕數(shù)據(jù)情感詞的情感總值的過(guò)程包括:
步驟1、將彈幕數(shù)據(jù)中的情感詞按照所述七維彈幕情感詞典所在的對(duì)應(yīng)維度進(jìn)行分類(lèi),得到對(duì)應(yīng)維度的彈幕文本;
步驟2、判斷所述彈幕文本是否存在情感反轉(zhuǎn),計(jì)算所述彈幕文本對(duì)應(yīng)維度的文本情感值;
步驟3、通過(guò)彈幕數(shù)據(jù)的其他數(shù)據(jù)維度計(jì)算彈幕文本的強(qiáng)度增益;
步驟4、將所述文本情感值和彈幕文本的強(qiáng)度增益進(jìn)行累加得到對(duì)應(yīng)維度下的彈幕文本的情感總值;
步驟5、重復(fù)步驟1-步驟4計(jì)算出彈幕文本在七維情感下每個(gè)維度的情感總值,按照積極類(lèi)別情感總值和消極類(lèi)別情感總值之間的大小關(guān)系確定最終情感類(lèi)別。
2.根據(jù)權(quán)利要求1所述的一種彈幕文本中情感詞的分類(lèi)方法,其特征在于,步驟S1中所述彈幕數(shù)據(jù)預(yù)處理具體包括:
將彈幕數(shù)據(jù)維度分為八個(gè)維度,包括彈幕距視頻開(kāi)始后出現(xiàn)時(shí)間、彈幕種類(lèi)、彈幕字體大小、彈幕字體顏色、彈幕發(fā)送時(shí)間戳、彈幕池類(lèi)型、發(fā)送者加密后id、彈幕id;
利用先驗(yàn)知識(shí)對(duì)采集到的彈幕數(shù)據(jù)進(jìn)行打標(biāo),將彈幕數(shù)據(jù)分為積極類(lèi)別和消極類(lèi)別,并且將數(shù)據(jù)中的異常值、空值進(jìn)行刪除,得到帶有情感詞標(biāo)注的正向情感和負(fù)向情感彈幕文本數(shù)據(jù)作為待分類(lèi)彈幕數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種彈幕文本中情感詞的分類(lèi)方法,其特征在于,步驟A中所述七維彈幕情感詞典的構(gòu)造具體包括:
步驟A1、將大連理工大學(xué)所提出的中文情感詞匯本體庫(kù)作為所述七維彈幕情感詞典的核心,從七個(gè)情感維度來(lái)描述情感,包括樂(lè)、好、怒、哀、懼、惡和驚,樂(lè)和好屬于正向情感,而其他五個(gè)則屬于負(fù)向情感,每種情感的強(qiáng)度都分為1、3、4、7、9五檔,1代表強(qiáng)度最小,而9代表強(qiáng)度最大;
步驟A2、對(duì)彈幕數(shù)據(jù)進(jìn)行分析,得到彈幕流行詞詞典,同時(shí),從彈幕文本以及互聯(lián)網(wǎng)常用顏符號(hào)中收集231個(gè)符號(hào)作為顏符號(hào)詞典;
步驟A3、根據(jù)大連理工大學(xué)情感詞庫(kù)的等級(jí)評(píng)判標(biāo)準(zhǔn),對(duì)流行情感詞和顏符號(hào)進(jìn)行權(quán)重打分,將中文情感詞匯本體庫(kù)、彈幕流行詞詞典和顏符號(hào)詞典匯總到一起,得到所述七維彈幕情感詞典。
4.根據(jù)權(quán)利要求1所述的一種彈幕文本中情感詞的分類(lèi)方法,其特征在于,所述得到對(duì)應(yīng)維度的彈幕情感詞文本的過(guò)程具體包括:分別對(duì)爬取到的每條彈幕數(shù)據(jù)進(jìn)行分詞處理,去除無(wú)用停用詞,得到每條彈幕數(shù)據(jù)的詞語(yǔ)集合W{w1,w2,w3,…,wn},W表示該條彈幕數(shù)據(jù)的詞語(yǔ)集合,wi表示該條彈幕數(shù)據(jù)中第i個(gè)詞語(yǔ);
用所述七維彈幕情感詞典對(duì)所述每條彈幕數(shù)據(jù)的詞語(yǔ)集合進(jìn)行詞語(yǔ)匹配,得到Sc是W的子集,表示W(wǎng)中所屬情感維度c的情感詞集合,其中c∈{樂(lè),好,怒,哀,懼,惡,驚}共七維情感,而表示所屬情感維度c的第i個(gè)情感詞。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011418248.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)





