[發明專利]基于深度學習的文本分類方法在審
| 申請號: | 202011099764.2 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112163064A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 劉云翔;徐齊;原鑫鑫;王春婭 | 申請(專利權)人: | 上海應用技術大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200235 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 文本 分類 方法 | ||
本發明提供了一種基于深度學習的文本分類方法,該方法首先對帶標簽的文本數據進行清洗、劃分;然后將文本序列映射為詞向量序列S;并將S輸入到多注意力神經網絡(MANN)中得到文本向量Sw。最后,將句子Sw輸入到前饋神經網絡(FNN)分類器得到文本類別。模型按照預設的超參數訓練模型,根據模型在驗證集上的表現選取最優的模型。實驗結果顯示,該模型取得了較好的分類精度。
技術領域
本發明涉及一種基于深度學習的文本分類方法。
背景技術
文本分類在信息處理中占據著重要的地位,隨著互聯網的發展海量的文本數據不斷產生,這些文本數據中存在著大量的信息,利用有效的方法對這些信息進行有效的管理和提取對企業和社會信息技術發展有著重大作用。
目前,深度學習技術被廣泛的應用在文本分類任務上。具體來說,Kim等人將CNN應用在文本分類任務上,利用卷積層獲取局部的文本信息。但卷積網絡無法很好的利用文本的序列信息。之后人們將RNN以及在RNN基礎上改進的LSTM網絡應用在文本分類任務上取得了更好的分類效果。但是,由于循環神經網絡順序處理詞序列的特點,使得基于RNN的模型并行計算困難。
發明內容
本發明的目的在于提供一種基于深度學習的文本分類方法。
為解決上述問題,本發明提供一種基于深度學習的文本分類方法,包括:
步驟1:對帶文本標簽的文本數據進行清洗,然后將清洗后的帶標簽的文本數據劃分為訓練數據集和驗證集;
步驟2:將訓練數據集合和驗證集的文本中的單詞替換成單詞編號,以分別形成訓練數據集合對應的單詞索引序列和驗證集對應的單詞索引序列;
步驟3:構建詞向量矩陣;
步驟4:基于所述詞向量矩陣,將分別將訓練數據集和驗證集對應的單詞索引序列映射為訓練數據集和驗證集對應的詞向量序列S;
步驟5:將訓練數據集對應的詞向量序列S輸入多注意力神經網絡模型,以獲取輸出的文本向量Sw;
步驟6:將所述文本向量Sw輸入到前饋神經網絡中,以獲取輸出的文本類別概率向量;
步驟7:基于所述文本數據的文本標簽得到文本標簽向量,根據所述文本類別概率向量和文本標簽向量,計算損失函數,并使用批量梯度下降算法優化所述損失函數,基于優化后的損失函數對注意力神經網絡和前饋神經網絡的模型參數進行調整,以得到優化后的模型;
步驟8:將驗證集對應的詞向量序列S輸入所述優化后的模型,基于所述優化后的模型的輸出選取最優的模型作為最終的模型;
步驟9:基于所述最終的模型對待分類的文本進行分類。
進一步的,在上述方法中,對帶文本標簽的文本數據進行清洗,包括:
去除多余的符號,只保留標點符號、單詞,并將文本標簽用one-hot向量表示。
進一步的,在上述方法中,步驟2:將訓練數據集合和驗證集的文本中的單詞替換成單詞編號,包括:
按照訓練數據集中單詞出現的頻率分別為訓練數據集中的單詞進行編號,將訓練數據集的文本中的單詞替換成單詞編號,其中,對于訓練數據集中的前num個頻率最高的單詞,單詞編號為該單詞出現的頻率對應的編號;對于編號大于num的單詞,單詞編號為0,num為正整數;
按照驗證集中單詞出現的頻率分別為驗證集中的單詞進行編號,將驗證集的文本中的單詞替換成單詞編號,其中,對于驗證集中的前num個頻率最高的單詞,單詞編號為該單詞出現的頻率對應的編號;對于編號大于num的單詞,單詞編號為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海應用技術大學,未經上海應用技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099764.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于高光譜成像的多生理參數檢測裝置及方法
- 下一篇:一種公路施工夯實設備





