[發(fā)明專利]一種基于融合多級(jí)別主題情感模型的文本分類方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202111009968.7 | 申請(qǐng)日: | 2021-08-31 |
| 公開(公告)號(hào): | CN113688241B | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設(shè)計(jì))人: | 黎荊妗;杜小東;朱征宇;趙福強(qiáng);韓萍 | 申請(qǐng)(專利權(quán))人: | 重慶大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/216;G06F40/242 |
| 代理公司: | 重慶市前沿專利事務(wù)所(普通合伙) 50211 | 代理人: | 郭云;肖秉城 |
| 地址: | 400044 *** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 融合 多級(jí) 主題 情感 模型 文本 分類 方法 裝置 | ||
1.一種基于融合多級(jí)別主題情感模型的文本分類方法,其特征在于,包括以下步驟:
S1,對(duì)文本進(jìn)行預(yù)處理;
預(yù)處理包括第一預(yù)處理和第二預(yù)處理;所述第一預(yù)處理包括句法結(jié)構(gòu)分析以及刪除停用詞;所述第二預(yù)處理包括詞干化、移除非法字符、移除數(shù)字、移除停用詞以及移除標(biāo)點(diǎn)符號(hào);所述第一預(yù)處理后的文本用于輸入語塊級(jí)主題情感模型CTSM;所述第二預(yù)處理后的文本用于輸入單詞級(jí)主題情感模型JST和句子級(jí)主題情感模型SJTSM;
S2,預(yù)處理后的文本輸入單詞級(jí)主題情感模型JST、語塊級(jí)主題情感模型CTSM和句子級(jí)主題情感模型SJTSM中,分別提取文本的單詞級(jí)、語塊級(jí)和句子級(jí)主題情感概率分布;
所述CTSM模型的構(gòu)建,包括以下步驟:
A1,建立語塊、主題和情感標(biāo)簽的聯(lián)合概率表達(dá)式;
將語塊、主題和情感標(biāo)簽的聯(lián)合概率p(c,l,z|α,β,γ)分解為如式(1)所示的三部分:
p(c,l,z|α,β,γ)=p(c|l,z,β)p(z|l,α)p(l|γ)?(1)
其中p(l|γ),p(z|l,α)和p(c|l,z,β)分別表示情感標(biāo)簽l的概率,情感標(biāo)簽l下主題z的概率以及情感標(biāo)簽l和主題z下語塊c的概率,α、β和γ為超參數(shù);
A2,基于Gibbs?sampling估算后驗(yàn)分布,求解參數(shù),計(jì)算語塊級(jí)主題情感概率分布;
所述JST、SJTSM和CTSM的構(gòu)建框架相同,JST的輸入為單詞,SJTSM的輸入為句子;
S3,提取的單詞級(jí)、語塊級(jí)和句子級(jí)主題情感概率分布進(jìn)行拼接,得到多級(jí)別主題情感概率分布;
S4,多級(jí)別主題情感概率分布作為文本的特征向量輸入到分類器中進(jìn)行文本分類,得到分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于融合多級(jí)別主題情感模型的文本分類方法,其特征在于,所述步驟A2具體包括以下步驟:
A21,輸入迭代次數(shù),主題個(gè)數(shù),語料庫,情感詞典以及超參數(shù)α、β和γ;
A22,經(jīng)過多次迭代,對(duì)語料庫中的每篇訓(xùn)練文本的每個(gè)語塊根據(jù)式(2)采樣新的主題和情感標(biāo)簽;
其中,i為句子標(biāo)號(hào),即第i個(gè)句子;j、j′為主題標(biāo)號(hào),即第j個(gè)主題、第j′個(gè)主題;k、k′為情感標(biāo)簽標(biāo)號(hào),即第k個(gè)情感標(biāo)簽、第k′個(gè)情感標(biāo)簽;d為文本標(biāo)號(hào),即第d個(gè)文本;表示統(tǒng)計(jì)數(shù)據(jù)時(shí)不統(tǒng)計(jì)第i個(gè)句子上的數(shù)據(jù);L為情感標(biāo)簽總數(shù);C為語塊總數(shù);T為主題總數(shù);N為語塊出現(xiàn)次數(shù);mi表示第i個(gè)句子上的所有語塊的總數(shù),mi,c表示語塊c在第i個(gè)句子中的次數(shù);
A23,根據(jù)統(tǒng)計(jì)得到的主題和情感標(biāo)簽信息求解參數(shù),計(jì)算主題情感語塊分布文本情感主題分布θd,k,j、文本情感分布πd,k。
3.根據(jù)權(quán)利要求2所述的基于融合多級(jí)別主題情感模型的文本分類方法,其特征在于,所述主題情感語塊分布文本情感分布πd,k和文本情感主題分布θd,k,j的計(jì)算公式分別如式(3)至式(5)所示:
文本情感主題分布θd,k,j用來表示文本,作為CTSM模型處理文本提取的語塊級(jí)主題情感概率分布。
4.根據(jù)權(quán)利要求1所述的基于融合多級(jí)別主題情感模型的文本分類方法,其特征在于,步驟S4所述的分類器為多分類器。
5.根據(jù)權(quán)利要求4所述的基于融合多級(jí)別主題情感模型的文本分類方法,其特征在于,所述多分類器包括SVM分類器、Logistics?Regression分類器和Decision?Tree分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111009968.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





