[發(fā)明專利]一種基于不均衡文本集的情感分類器構(gòu)建方法、裝置、設(shè)備和介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010617303.3 | 申請(qǐng)日: | 2020-06-30 |
| 公開(公告)號(hào): | CN111767399B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設(shè)計(jì))人: | 馮豆豆 | 申請(qǐng)(專利權(quán))人: | 深圳平安智慧醫(yī)健科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/216;G06F40/242;G06F40/289;G06K9/62;G06N20/10 |
| 代理公司: | 北京英特普羅知識(shí)產(chǎn)權(quán)代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)南山*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 均衡 文本 情感 分類 構(gòu)建 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明公開了一種基于不均衡文本集的情感分類器構(gòu)建方法,該方法包括:獲取第一不均衡樣本集,其中,第一不均衡樣本集包括多個(gè)第一樣本和每個(gè)第一樣本的情感概率樣本值;從預(yù)置情感詞典中確定出第一樣本中的情感詞和情感詞的分值;確定第一樣本中用于修飾情感詞的程度副詞的分值;根據(jù)第一樣本中的情感詞的分值和程度副詞的分值計(jì)算第一樣本的情感分值;根據(jù)預(yù)置情感分類器確定第一樣本的情感概率值;根據(jù)第一樣本的情感分值、預(yù)置情感分類器確定的第一樣本的情感概率值以及第一樣本的情感概率樣本值訓(xùn)練第一機(jī)器學(xué)習(xí)算法,得到用于判斷文本情感類別的目標(biāo)情感分類器。另外,本發(fā)明還涉及人工智能中的模型訓(xùn)練及區(qū)塊鏈技術(shù)。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種基于不均衡文本集的情感分類器構(gòu)方法、裝置、計(jì)算機(jī)設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
文本的情感類型包括正面情感、中立情感和負(fù)面情感,不同情感類型的文本數(shù)量可能不同,當(dāng)文本集中某類文本的數(shù)量遠(yuǎn)遠(yuǎn)超過其他類時(shí),該文本集稱為不均衡文本集。比如在新聞文本集中,正面情感和中立情感的新聞文本大約占90%,負(fù)面情感的新聞文本大約占10%。
在不均衡文本集中,少數(shù)類文本所表達(dá)的信息量要遠(yuǎn)遠(yuǎn)少于多數(shù)類。當(dāng)基于不均衡文本集構(gòu)建用于判斷文本情感類型的情感分類器時(shí),情感分類器基本無法學(xué)習(xí)到少數(shù)類文本的特點(diǎn),從而導(dǎo)致情感分類器準(zhǔn)確率不高,容易出現(xiàn)錯(cuò)判的情況。
針對(duì)上述問題,一種相關(guān)技術(shù)的解決方案是采用過采樣技術(shù),即對(duì)少數(shù)類文本進(jìn)行多次采樣,直至少數(shù)類文本的數(shù)量和多數(shù)類文本的數(shù)量相同;另一種相關(guān)技術(shù)的解決方案是采用欠采樣技術(shù),即從多數(shù)類文本中采出部分文本,使得多數(shù)類文本的數(shù)量和少數(shù)類文本的數(shù)量相同。
然而,發(fā)明人研究發(fā)現(xiàn),相關(guān)技術(shù)中使用過采樣技術(shù)僅僅是增加了少數(shù)類文本的權(quán)重,使用欠采樣技術(shù)僅僅是降低了多數(shù)類文本的權(quán)重,這兩種方法并不能更多更深入的挖掘出少數(shù)類文本所包含的情感信息,并且欠采樣技術(shù)還會(huì)丟棄部分多數(shù)類文本,從而造成多數(shù)類文本的情感信息丟失。
針對(duì)相關(guān)技術(shù)中無法更多的挖掘出少數(shù)類文本所包含的情感信息甚至?xí)斐啥鄶?shù)類文本的情感信息丟失,從而使得利用不均衡文本集構(gòu)建的情感分類器的準(zhǔn)確率依然較低的技術(shù)問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供了一種基于不均衡文本集的情感分類器構(gòu)方法、裝置、計(jì)算機(jī)設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),能夠解決相關(guān)技術(shù)中無法更多的挖掘出少數(shù)類文本所包含的情感信息甚至?xí)斐啥鄶?shù)類文本的情感信息丟失,從而使得利用不均衡文本集構(gòu)建的情感分類器的準(zhǔn)確率依然較低的技術(shù)問題。
本發(fā)明的一個(gè)方面提供了一種基于不均衡文本集的情感分類器構(gòu)建方法,所述方法包括:獲取第一不均衡樣本集,其中,所述第一不均衡樣本集包括多個(gè)第一樣本和每個(gè)所述第一樣本的情感概率樣本值;從預(yù)置情感詞典中確定出所述第一樣本中的情感詞和所述情感詞的分值;確定所述第一樣本中用于修飾所述情感詞的程度副詞的分值;根據(jù)所述第一樣本中的所述情感詞的分值和所述程度副詞的分值計(jì)算所述第一樣本的情感分值;根據(jù)預(yù)置情感分類器確定所述第一樣本的情感概率值,其中,所述預(yù)置情感分類器根據(jù)第二不均衡樣本集訓(xùn)練得到,所述第二不均衡樣本集包括多個(gè)第二樣本和每個(gè)所述第二樣本的情感概率樣本值;根據(jù)所述第一樣本的情感分值、所述預(yù)置情感分類器確定的所述第一樣本的情感概率值以及所述第一樣本的情感概率樣本值訓(xùn)練第一機(jī)器學(xué)習(xí)算法,得到用于判斷文本情感類別的目標(biāo)情感分類器。
可選地,所述情感詞包括正面情感詞和負(fù)面情感詞,所述第一樣本的情感分值包括正面情感分值和負(fù)面情感分值,所述根據(jù)所述第一樣本中的所述情感詞的分值和所述程度副詞的分值計(jì)算所述第一樣本的情感分值,包括:根據(jù)所述第一樣本中的所述正面情感詞的分值和用于修飾所述正面情感詞的程度副詞的分值計(jì)算所述第一樣本的正面情感分值;和/或根據(jù)所述第一樣本中的所述負(fù)面情感詞的分值和用于修飾所述負(fù)面情感詞的程度副詞的分值計(jì)算所述第一樣本的負(fù)面情感分值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳平安智慧醫(yī)健科技有限公司,未經(jīng)深圳平安智慧醫(yī)健科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010617303.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





