[發(fā)明專利]一種基于綜合深度膠囊網(wǎng)絡(luò)的復(fù)雜評論文本的整體情感智能分類方法有效
| 申請?zhí)枺?/td> | 202010468051.2 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111666409B | 公開(公告)日: | 2022-02-08 |
| 發(fā)明(設(shè)計)人: | 韓波;張靚 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 綜合 深度 膠囊 網(wǎng)絡(luò) 復(fù)雜 評論 文本 整體 情感 智能 分類 方法 | ||
1.一種基于綜合深度膠囊網(wǎng)絡(luò)的復(fù)雜評論文本的整體情感智能分類方法,其特征在于,包括:
S1:從開源庫中獲取多個情感分類數(shù)據(jù)集;
S2:根據(jù)情感分類數(shù)據(jù)集中噪聲和情緒混合的情況,選取出目標數(shù)據(jù)集,并將每個目標數(shù)據(jù)集劃分為訓(xùn)練集和驗證集;
S3:根據(jù)單詞層面、短語層面以及句子層面之間的邏輯關(guān)系,設(shè)置與單詞層面對應(yīng)的向量模塊、與短語層面對應(yīng)的卷積模塊以及與句子層面對應(yīng)的膠囊網(wǎng)絡(luò)模塊,其中,向量模塊、卷積模塊以及膠囊網(wǎng)絡(luò)模塊構(gòu)成綜合深度膠囊網(wǎng)絡(luò)整體分類模型,向量模塊、卷積模塊以及膠囊網(wǎng)絡(luò)模塊分別用于捕獲單詞層面、短語層面和句子層面的特征信息;
S4:將用作訓(xùn)練集的數(shù)據(jù)集輸入綜合深度膠囊網(wǎng)絡(luò)分類模型,進行模型訓(xùn)練,當模型訓(xùn)練若干步后,交叉熵損失值的變化收斂到閾值之后,停止訓(xùn)練,再將驗證集數(shù)據(jù)輸入進訓(xùn)練得到的模型中,進行預(yù)測與評估,得到最終分類模型;
S5:利用最終分類模型對待分類文本進行分類;
其中,S2具體包括:
S2.1:從獲取的每個情感分類數(shù)據(jù)集隨機抽取預(yù)設(shè)數(shù)量的樣本;
S2.2:統(tǒng)計樣本中存在噪聲和情緒混合情況的樣本數(shù)量,并計算存在噪聲和情緒混合情況的樣本的比例,其中,存在噪聲和情緒混合情況的樣本包括存在噪聲的樣本和存在情緒混合情況的樣本,存在噪聲的樣本包括存在單詞拼寫錯誤、語法錯誤的樣本,存在情緒混合情況的樣本包括文本中出現(xiàn)“正向-負向-正向”或“負向-正向-負向”情感交替的樣本;
S2.3:根據(jù)所述比例,選取出目標數(shù)據(jù)集。
2.如權(quán)利要求1所述的方法,其特征在于,S1的數(shù)據(jù)集包括但不限于:StanfordSentiment Treebank、Yelp、Amazon Reviews、SemEval以及Cornell movie reviews數(shù)據(jù)集。
3.如權(quán)利要求1所述的方法,其特征在于,S2.2中語法錯誤包括詞序錯誤以及完全口語化的不符合語法規(guī)范的省略。
4.如權(quán)利要求1所述的方法,其特征在于,S2中的膠囊網(wǎng)絡(luò)模塊采用空洞卷積進行間隔卷積,并通過動態(tài)路由機制將句子層面的特征直接對應(yīng)到最終分類過程,最高層膠囊各自對應(yīng)一個分類類別。
5.如權(quán)利要求1所述的方法,其特征在于,S3中所述交叉熵損失為真實標簽分布與預(yù)測標簽分布之間的差異,用H(p,q)表示,p真實類別標簽,q表示預(yù)測類別標簽,n表示所有的n種可能性,p(xi)表示xi發(fā)生的概率,q(xi)表示預(yù)測為xi的概率:
6.如權(quán)利要求1所述的方法,其特征在于,預(yù)測結(jié)果的評估以準確率作為指標,具體為分類正確的樣本占被分類樣本總個數(shù)的比例。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010468051.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





