[發明專利]一種文本自動分類方法在審
| 申請號: | 201710822309.2 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107609113A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 張媛鈺;阿孜古麗;謝永紅;張德政;栗輝;李春苗 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/08 |
| 代理公司: | 北京市廣友專利事務所有限責任公司11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 自動 分類 方法 | ||
技術領域
本發明涉及文本分類領域,特別是指一種文本自動分類方法。
背景技術
在網絡信息中,文本作為主要的信息承載途徑占據著重要地位。文本分類(Text Classification,TC)也就是利用計算機對文本集或是其它的實體和物件按照一定的分類體系或標準進行自動分類標記。目前,深度學習已經成功應用于多種模式分類問題,使用基于深度學習的方法,可以更好得挖掘蘊含在文本中的復雜語義關系。
但是,現有技術中,一般采用單一的方法對文本進行分類,特征提取能力較弱,對噪聲數據的處理能力較差,使得分類結果準確性較低。
發明內容
本發明要解決的技術問題是提供一種文本自動分類方法,以解決現有技術所存在的噪聲處理能力差、特征提取能力弱的問題。
為解決上述技術問題,本發明實施例提供一種文本自動分類方法,包括:
獲取待分類的文本;
采用降噪自動編碼器和受限玻爾茲曼機,構建降噪深度神經網絡模型;
利用構建的降噪深度神經網絡模型,對獲取的待分類的文本進行特征提??;
根據特征提取結果,利用Softmax回歸算法進行自動分類。
進一步地,在利用構建的降噪深度神經網絡模型,對獲取的待分類的文本進行特征提取之前,所述方法還包括:
剔除所述獲取的待分類的文本中的噪聲數據,其中,所述噪聲數據包括:無用的信息和/或正文中的標點符號及特殊字符。
進一步地,在剔除所述獲取的待分類的文本中的噪聲數據之后,所述方法還包括:
對去除噪聲數據的文本數據進行分詞處理。
進一步地,在對去除噪聲數據的文本數據進行分詞處理之后,所述方法還包括:
根據文本數據的分詞結果,對文本數據去停用詞,其中,去掉的停用詞為沒有區分和預測能力的特征詞。
進一步地,在對文本數據去停用詞之后,所述方法還包括:
將去停用詞后得到的特征詞映射成為詞表形式;
計算特征詞表中每個特征詞的權值并記錄在特征詞表中,其中,所述特征詞表包括文本、文本中的特征詞與文本中每個特征詞的權值之間的對應關系;
根據得到的特征詞表,將每個文本依次表示為特征向量的形式。
進一步地,所述根據得到的特征詞表,將每個文本依次表示為特征向量的形式包括:
按照預設的規則,判斷第一文本是否是短文本;
若是,則根據短文本特征擴充算法,對所述第一文本進行特征擴充,并基于特征擴充結果,將所述第一文本表示為特征向量的形式;
若不是,則根據得到的特征詞表,直接將所述第一文本表示為特征向量的形式。
進一步地,在根據得到的特征詞表,將每個文本依次表示為特征向量的形式之后,所述方法還包括:
對表示為向量特征形式的每個數值進行歸一化處理。
進一步地,所述降噪深度神經網絡模型包括:
位于所述降噪深度神經網絡模型最底層的第一降噪自動編碼器、位于所述第一降噪自動編碼器上層的第二降噪自動編碼器、位于所述第二降噪自動編碼器上層的第一受限玻爾茲曼機、位于所述第一受限玻爾茲曼機上層的第二受限玻爾茲曼機。
進一步地,所述第一降噪自動編碼器和第二降噪自動編碼器組成降噪模塊,所述降噪模塊用于對輸入所述降噪深度神經網絡模型的特征向量進行降噪處理;其中,所述第二降噪自動編碼器所在層是所述降噪模塊的輸出層同時也是所述第一受限玻爾茲曼機的輸入層;
所述第二受限玻爾茲曼機是所述降噪深度神經網絡模型的輸出層,輸出層的輸出結果為所述待分類的文本的特征表示。
進一步地,所述降噪深度神經網絡模型的輸入是一個固定維度的特征向量。
本發明的上述技術方案的有益效果如下:
上述方案中,通過采用降噪自動編碼器和受限玻爾茲曼機,構建降噪深度神經網絡模型;利用構建的降噪深度神經網絡模型,對獲取的待分類的文本進行特征提??;根據特征提取結果,利用Softmax回歸算法進行自動分類。這樣,基于具有強大的抗噪能力的降噪自動編碼器和具有強大的特征提取能力的受限玻爾茲曼機構建的降噪深度神經網絡模型提取的待分類的文本的特征,能夠提高文本分類的準確性和抗噪能力。
附圖說明
圖1為本發明實施例提供的文本自動分類方法的流程示意圖;
圖2為本發明實施例提供的將獲取的待分類文本表示為特征向量的流程示意圖;
圖3為本發明實施例提供的降噪深度神經網絡模型的拓撲示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710822309.2/2.html,轉載請聲明來源鉆瓜專利網。





