[發明專利]一種基于多角度膠囊網絡的文本分類方法有效
| 申請號: | 201810898983.3 | 申請日: | 2018-08-08 |
| 公開(公告)號: | CN109241283B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 肖明;左彬靖;馮文超;郭瑞祥;杜成喜 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06N3/04 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510006 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 角度 膠囊 網絡 文本 分類 方法 | ||
本發明公開了一種基于多角度膠囊網絡的文本分類方法,首先利用中文的特性,將中文文本分為中文和拼音兩種不同的輸入方式,并且分別訓練字符級別的詞向量,利用注意力模型賦予兩種詞向量不同的權重,形成文本特征向量對文本的語義擴展,然后用卷積神經網絡提取三個定長的文本語義向量特征,之后通過膠囊網絡提取卷積神經網絡的特征表示,不僅提取文本的局部特征,還能聯系各局部特征的相對空間位置和語境信息。使文本的語義信息更加的豐富,語義特征向量化的表示得到進一步增強。
技術領域
本發明涉及文本挖掘和深度學習領域,更具體地,涉及一種基于多角度膠囊網絡的文本分類方法。
背景技術
隨著互聯網時代的發展,許多社交軟件或電商軟件中用戶評論數據所表達的意向十分重要,如何從海量的、非結構化的海量的評論數據中提取出有用的信息已經成為一種越來越迫切的需求,因此一種高效的中文短文本分類方法可以在文本抽取更豐富的語義信息,從而對自己的產品或者工作上的改進產生良好的指導作用。
短文本自動分類是文本挖掘領域一個重要的子問題,目前主流的深度學習文本分類方法主要分為:基于卷積神經網絡的方法,基于遞歸神經網絡的方法,基于帶注意力機制的雙向長短時記憶模型的方法,基于卷積神經網絡和循環神經網絡的方法等方法。
和本發明最接近的是基于卷積神經網絡的方法,它利用卷積神經網絡的卷積核提取文本詞向量的局部特征,利用池化層對卷積層最突出的特征做二次提取,之后經過softmax層得到分類關系。
發明內容
本發明的目的是解決上述一個或多個缺陷,提出一種基于多角度膠囊網絡的文本分類方法。
為實現以上發明目的,采用的技術方案是:
一種基于多角度膠囊網絡的文本分類方法,包括以下步驟:
S1:將輸入的短文本數據轉化成中文文本和英文文本,分別對文本的每一個字或每一個拼音的字母分別用word2vec進行訓練,作為文本的初始化字向量;
S2:將中文的字向量和拼音的字向量連接起來,通過注意力模型,使得每個字向量分別帶有不同的權重,根據權重代表該字在文本中的重要程度,然后生成新的文本的特征表示;
S3:使用多個不同寬度的卷積核分別對所述短文本的特征映射進行二維卷積運算,并生成多個局部特征卷積矩陣;
S4:通過多個膠囊網絡,使用動態路由機制對多個局部特征卷積矩陣進行特征全局提取,保存為全局的語義向量;
S5:在全連接層將短文本的語義特征向量賦予分類器,對短文本的類別進行預測。
優選的是,步驟S1所述文本的初始化字向量為通過運用查表的方式進行獲取。
優選的是,步驟S2所述中文的字向量和拼音的字向量通過下面三式計算出新的短文本的特征表示:
ui=tanh(Wω[ci;pi]+bω) 式(1)
其中ci為從中文文本中獲得的字向量,pi為拼音中的字向量,wω和uω是可訓練的參數矩陣,s是Attention層的輸出向量。
優選的是,在步驟3中,假設卷積核的寬度為d,高度為h的矩陣ω,對于步驟2輸出的特征矩陣A∈Rsxd,那么卷積的操作可以用如下公式表示:
oi=ω·A[i:i+h-1],i=1,2,...,s-h+1 式(4)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810898983.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種報警信息匯聚方法及裝置
- 下一篇:一種文檔分類方法及裝置





