[發(fā)明專(zhuān)利]一種面向汽車(chē)輿情的多標(biāo)簽文本分類(lèi)系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210814925.4 | 申請(qǐng)日: | 2022-07-12 |
| 公開(kāi)(公告)號(hào): | CN115062153A | 公開(kāi)(公告)日: | 2022-09-16 |
| 發(fā)明(設(shè)計(jì))人: | 李瑞瑞;于沛;趙偉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京富通東方科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/166;G06F40/216;G06F40/247;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06Q50/00 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100086 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 汽車(chē) 輿情 標(biāo)簽 文本 分類(lèi) 系統(tǒng) 方法 | ||
1.一種面向汽車(chē)輿情的多標(biāo)簽文本分類(lèi)系統(tǒng),其特征在于,包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)表示模塊、多標(biāo)簽分類(lèi)模塊、標(biāo)簽概率評(píng)價(jià)模塊、顯示模塊,其中:
所述數(shù)據(jù)預(yù)處理模塊用于對(duì)汽車(chē)輿情信息進(jìn)行預(yù)處理;
所述數(shù)據(jù)表示模塊用于對(duì)預(yù)處理后的汽車(chē)輿情信息進(jìn)行向量化表示;
所述多標(biāo)簽分類(lèi)模塊用于使用數(shù)據(jù)集構(gòu)建多標(biāo)簽分類(lèi)模型,包括構(gòu)建分類(lèi)模型和使用分類(lèi)模型輸出標(biāo)簽預(yù)測(cè)結(jié)果兩部分;
所述標(biāo)簽概率評(píng)價(jià)模塊,根據(jù)標(biāo)簽預(yù)測(cè)結(jié)果計(jì)算標(biāo)簽預(yù)測(cè)概率,若所述標(biāo)簽預(yù)測(cè)概率高于閾值,最終結(jié)果則采用標(biāo)簽預(yù)測(cè)結(jié)果,否則標(biāo)簽預(yù)測(cè)結(jié)果將不作為最終結(jié)果;
所述顯示模塊,用于對(duì)多標(biāo)簽結(jié)果進(jìn)行可視化展示。
2.如權(quán)利要求1所述的一種面向汽車(chē)輿情的多標(biāo)簽文本分類(lèi)系統(tǒng),其特征在于,所述預(yù)處理的步驟如下:
步驟一:數(shù)據(jù)清洗,用于刪除重復(fù)或與汽車(chē)領(lǐng)域無(wú)關(guān)的汽車(chē)輿情信息;
步驟二:句子切分,以篇為單位,對(duì)經(jīng)過(guò)數(shù)據(jù)清洗的汽車(chē)輿情信息按照標(biāo)點(diǎn)符號(hào)等標(biāo)識(shí)符切分為句子;
步驟三:去停用詞,采用詞頻統(tǒng)計(jì)和人工校驗(yàn)的方式,將詞頻較高且對(duì)分類(lèi)結(jié)果無(wú)影響的詞匯與通用停用詞進(jìn)行組合,構(gòu)建去停用詞表,用于對(duì)汽車(chē)輿情信息進(jìn)行去停用詞操作;
步驟四:one-hot向量化表示,根據(jù)標(biāo)簽類(lèi)型數(shù)量N(N 0),將每條汽車(chē)輿情句子變?yōu)樾邢蛄浚?×N),所屬標(biāo)簽類(lèi)型置為1,非標(biāo)簽類(lèi)型置為0。
3.一種面向汽車(chē)輿情的多標(biāo)簽文本分類(lèi)方法,其特征在于,多標(biāo)簽分類(lèi)的方法如下:
步驟一:設(shè)定ALBERT模型需要使用的參數(shù),包括詞表大小、詞向量大小、隱藏層大小、最大預(yù)訓(xùn)練序列長(zhǎng)度、隱藏層數(shù)、激活函數(shù);
步驟二:將經(jīng)過(guò)預(yù)處理的汽車(chē)輿情信息作為ALBERT模型的輸入,獲得第一向量特征;
步驟三:利用基于統(tǒng)計(jì)方法的文本向量化計(jì)算方法,將汽車(chē)輿情信息轉(zhuǎn)換得到的特征表示矩陣作為第二向量特征;
步驟四:將第一向量特征和第二向量特征分別送入TextCNN模型進(jìn)行訓(xùn)練;
步驟五:將TextCNN模型的輸出結(jié)果對(duì)應(yīng)設(shè)置為第一標(biāo)簽預(yù)測(cè)結(jié)果和第二標(biāo)簽預(yù)測(cè)結(jié)果,并分別保存模型;
步驟六:根據(jù)第一標(biāo)簽預(yù)測(cè)結(jié)果和第二標(biāo)簽預(yù)測(cè)結(jié)果分別計(jì)算標(biāo)簽預(yù)測(cè)概率,根據(jù)閾值α判斷是否采用第一標(biāo)簽預(yù)測(cè)結(jié)果和第一標(biāo)簽預(yù)測(cè)結(jié)果,或第一標(biāo)簽預(yù)測(cè)結(jié)果,或第二標(biāo)簽預(yù)測(cè)結(jié)果;
若標(biāo)簽預(yù)測(cè)結(jié)果的概率高于閾值α(α0.75),最終結(jié)果則采用預(yù)測(cè)結(jié)果,否則預(yù)測(cè)結(jié)果將不作為最終結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京富通東方科技有限公司,未經(jīng)北京富通東方科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210814925.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 企業(yè)輿情監(jiān)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲(chǔ)介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 知識(shí)庫(kù)構(gòu)建方法及裝置
- 生成輿情專(zhuān)題方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺(tái)用戶單位變更配置的方法及系統(tǒng)
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹(shù)形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





