[發明專利]一種基于卷積神經網絡的文本情感分類方法在審
| 申請號: | 201710332453.8 | 申請日: | 2017-05-12 |
| 公開(公告)號: | CN107038480A | 公開(公告)日: | 2017-08-11 |
| 發明(設計)人: | 周武能;於雯 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F17/27;G06K9/62 |
| 代理公司: | 上海泰能知識產權代理事務所31233 | 代理人: | 宋纓,錢文斌 |
| 地址: | 201620 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 文本 情感 分類 方法 | ||
技術領域
本發明涉及文本分類技術領域,特別是涉及一種基于卷積神經網絡的文本情感分類方法。
背景技術
21世紀的時代是信息的時代,隨著計算機技術、數據存貯技術日新月異的發展和改進,應用領域也得到了快速擴展,世界也隨著信息的大量涌入而發生著天翻地覆的變化,文本數據資源也在不斷的高速增長。對于許多用戶和企業來說面對如此大量的文本信息,從中獲取有意義的、相關性強、具有針對性的信息變得異常艱難。所以對文本信息進行分類是一個很有價值的問題。
情感傾向分析是自然語言處理中一個重要的分支,特別是在以提取文本的情感內容為目標的分類方法中,情感分類已經有很多有用的實踐,比如企業利用消費者對產品反饋的信息進行分析,或者根據評論中的好評或差評信息對自己的產品進行改進。
目前已有研究所采用的方法大多數采用支持向量機、最大熵以及隨機游走等淺層學習方法,而這些方法無法捕獲到很多有關情感傾向性分析的語言現象特征,還需要大量的人工標注與訓練。
發明內容
本發明所要解決的技術問題是提供一種基于卷積神經網絡的文本情感分類方法,克服大量的人工標注和訓練。
本發明解決其技術問題所采用的技術方案是:提供一種基于卷積神經網絡的文本情感分類方法,包括以下步驟:
(1)搜集文本語料集,將文本里的數據表示成一個句子;
(2)對搜集的文本語料集進行預處理,并將情感文本語料分為訓練集語料和測試集語料;
(3)對預處理后的文本預料集用word2vec工具訓練出詞向量模型并得到文本向量;
(4)將訓練集語料的文本向量輸入卷積神經網絡訓練出情感分類模型;
(5)將測試集語料的文本向量輸入卷積神經網絡,并用已經訓練好的情感分類模型進行情感類別分類并計算出情感分類的準確率。
所述步驟(2)中預處理的方式為去除文本語料集中的無關信息,隨機選取文本語料集的80%作為訓練集語料,20%作為測試集語料。
所述無關信息包括標點符號、多余空格、重復無用的單字和特殊字符。
所述步驟(3)中用word2vec工具訓練時,出現次數超過五次的字會被加入字典中,對于沒有出現在字典中的字符的詞向量會被隨機初始化。
所述步驟(4)中包括以下子步驟:
(41)詞向量的串接:在包含N個以字為基本單位{r1,r2,…,rN}的句子x中,卷積層對每個大小為k的連續窗口進行矩陣向量操作,假定向量Zn∈Rdk是以句子中第n個基本單位為中心的前后各(k-1)/2個基本單位的詞向量的串接,其中d為句子中基本單位向量化表示后向量的長度,則向量Zn=(rn-(k-1)/2…rn+(k-1)/2)T;
(42)句子的特征向量表示:卷積層計算句子特征向量rsent∈R的第i個元素的過程如下:其中,W∈Rdk是卷積層的權重矩陣,b為偏移量,max[]為取最大值函數;
(43)計算情感標簽得分:表示句子x的全局特征的向量被傳遞給包含兩個全連接層的神經網絡處理,計算句子屬于每個情感標簽τ∈T的得分其中,矩陣矩陣向量向量b3∈R|T|是模型需要學習的參數,激活函數h()使用正切函數,隱藏層單元數目hlu為用戶指定的超參數,dlu為卷積單元和句子級的特征向量大小相關,T為情感標簽即表示積極或消極;
(44)得到情感標簽:給定一個句子x,參數集合為θ的模型對每個情感標簽τ∈T計算一個得分Sθ(x)τ,為了將這些得分轉換為給定句子的情感標簽和模型參數集θ的條件概率分布,將所有情感標簽τ∈T的得分進行Softmax操作:其中,P()為條件概率,對上式取對數得到使用隨機梯度下降算法最小化負似然函數其中,x表示訓練語料集D的一條句子,y表示該句子的情感標簽包括積極和消極兩種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710332453.8/2.html,轉載請聲明來源鉆瓜專利網。





