[發(fā)明專利]一種長文本新聞輿情的情感極性的分析方法有效
| 申請?zhí)枺?/td> | 202011291196.6 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112100388B | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 唐大鵬;郭柏龍;陳大龍 | 申請(專利權(quán))人: | 南京華蘇科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 顧伯興 |
| 地址: | 211300 江蘇省南京市高淳*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 新聞 輿情 情感 極性 分析 方法 | ||
1.一種長文本新聞輿情的情感極性的分析方法,其特征在于,包括以下步驟:
S1:收集文本數(shù)據(jù)作為訓(xùn)練樣本,其中情感極性標簽類型包括積極、中性、消極三類;
S2:對步驟S1中收集的訓(xùn)練樣本的數(shù)據(jù)進行數(shù)據(jù)清洗,并對清洗后的訓(xùn)練樣本的數(shù)據(jù)中的特殊字符進行處理,獲得數(shù)據(jù)集;
S3:切分數(shù)據(jù)集,將訓(xùn)練樣本按照比例切分為訓(xùn)練集和測試集,在切分數(shù)據(jù)集時保證訓(xùn)練集和測試集中的情感極性標簽的比例一致;
S4:搭建基于表征模型的深度學習網(wǎng)絡(luò)并加載預(yù)訓(xùn)練參數(shù);
S5:搭建長文本情感極性分析網(wǎng)絡(luò)模型;
S6:修改訓(xùn)練樣本數(shù)據(jù)結(jié)構(gòu);
S7:模型訓(xùn)練,采用分層抽樣與K折交叉驗證的方法,在分層抽樣時保證每折的樣本數(shù)據(jù)集中的樣本比例與原始數(shù)據(jù)比例一致,每折模型結(jié)果保存在驗證集得分最高的模型,綜合K折模型對于測試集進行測試,取平均概率作為所述步驟S5搭建的長文本情感極性分析網(wǎng)絡(luò)模型的測試結(jié)果;
所述步驟S4搭建基于面向中文理解的神經(jīng)語境表征模型NEZHA-WWM的深度學習網(wǎng)絡(luò)的具體步驟為:
S41:搭建網(wǎng)絡(luò)輸入層Input-Token與Input-Segment,該深度學習網(wǎng)絡(luò)的輸入為一個文本句子或文本句子對,即文本的Token編碼與句子分割標識;
S42:搭建網(wǎng)絡(luò)的字嵌入層Embedding,獲得嵌入層結(jié)果;
S43:搭建面向中文理解的神經(jīng)語境表征模型NEZHA-WWM的變形器Transformer主體結(jié)構(gòu),從而獲得基于面向中文理解的神經(jīng)語境表征模型NEZHA-WWM的深度學習網(wǎng)絡(luò);
所述步驟S5具體包括以下步驟:
S51:搭建網(wǎng)絡(luò)輸出層,所述輸出層為并列的多對輸出Input-Token與Input-Segment;
S52:搭建網(wǎng)絡(luò)拼接層,所述步驟S51中的多對輸出通過共享的所述步驟S4中的面向中文理解的神經(jīng)語境表征模型NEZHA-WWM的網(wǎng)絡(luò),每對輸出Input-Token與Input-Segment可得到其4倍輸出層,選取輸出層作為輸出值并將對應(yīng)的多個隱藏層進行拼接;
S53:搭建雙向門限循環(huán)單元網(wǎng)絡(luò)層Bi-GRU,雙向門限循環(huán)單元網(wǎng)絡(luò)Bi-GRU能夠從前后兩個方向同時獲取上下文信息,以提高特征提取的準確率;
S54:在網(wǎng)絡(luò)的最后一層增加全連接層,并使用Softmax激活函數(shù),用于輸出各種類型的情感極性的概率結(jié)果。
2.根據(jù)權(quán)利要求1所述的長文本新聞輿情的情感極性的分析方法,其特征在于,所述步驟S42中所述字嵌入層Embedding包括標記嵌入Token-Embedding、斷句嵌入Segment-Embedding和位置嵌入Position-Embedding,所述標記嵌入Token-Embedding是文本字典的下標,其引用NEZHA-WWM對應(yīng)的文本字典;所述斷句嵌入Segment-Embedding表明每個字屬于句子對中的哪個句子,所述位置嵌入Position-Embedding代表的是每個字的位置信息,所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量;將所述標記嵌入Token-Embedding、斷句嵌入Segment-Embedding和位置嵌入Position-Embedding三個嵌入的輸出直接相加,即得到嵌入層Embedding的值。
3.根據(jù)權(quán)利要求2所述的長文本新聞輿情的情感極性的分析方法,其特征在于,所述步驟S43中所述變形器Transformer主體結(jié)構(gòu)包括多個編碼器,每個所述編碼器的結(jié)構(gòu)均依次由多頭自注意力層Transformer-Multi-Head-Self-Attention、第一相加層Add和層歸一化層Layer-Normalization、前饋神經(jīng)網(wǎng)絡(luò)層Transformer-Feed-Forward以及第二相加層Add和層歸一化層Layer-Normalization構(gòu)成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京華蘇科技有限公司,未經(jīng)南京華蘇科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011291196.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





