[發明專利]一種文本的分類方法及裝置在審
| 申請號: | 201810505710.8 | 申請日: | 2018-05-24 |
| 公開(公告)號: | CN108763418A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 陸聰;張北偉 | 申請(專利權)人: | 遼寧石油化工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 113001 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 特征向量 文本分類 文本數據 信念網絡 分類器模型訓練 數據處理技術 詞語特征 無監督 詞性 預測 配置 網絡 | ||
本發明公開了一種文本的分類方法及裝置,涉及一種數據處理技術領域,主要目的在于現有由于文本中的文字、詞語特征在于特定的情況下可能表達的褒貶詞性是不同的,使得文本的體現內容也會不同,這就造成了文本分類的不準確性,降低文本分類的效率的問題。技術方案為:獲取待分類的文本數據;利用訓練好的深度信念網絡模型DBN對所述文本數據進行預測分類,所述深度信念網絡模型DBN是通過無監督訓練每一層波爾茲曼機網絡RBM得到特征向量后,利用配置為最后一層的分類器模型訓練所述特征向量得到的模型。適用于文本的分類。
技術領域
本發明涉及一種數據處理技術領域,特別是涉及一種文本的分類方法及裝置。
背景技術
隨著因特網的快速發展,海量級的數據及信息需要不斷進行處理分析,尤其針對占用網絡資源較少、更容易上傳和下載的文本數據。在進行文本處理的過程中,為了簡化處理過程,有效分析文本數據的特征,需要對文本進行分類。
目前,文本的分類通常是通過對分析文本中的文字、詞語特征從而進行分類,但是,由于文本中的文字、詞語特征在于特定的情況下可能表達的褒貶詞性是不同的,使得文本的體現內容也會不同,這就造成了文本分類的不準確性,降低文本分類的效率。
發明內容
有鑒于此,本發明提供一種文本的分類方法及裝置,主要目的在于現有由于文本中的文字、詞語特征在于特定的情況下可能表達的褒貶詞性是不同的,使得文本的體現內容也會不同,這就造成了文本分類的不準確性,降低文本分類的效率的問題。
依據本發明一個方面,提供了一種文本的分類方法,包括:
獲取待分類的文本數據;
利用訓練好的深度信念網絡模型DBN對所述文本數據進行預測分類,所述深度信念網絡模型DBN是通過無監督訓練每一層波爾茲曼機網絡RBM得到特征向量后,利用配置為最后一層的分類器模型訓練所述特征向量得到的模型。
進一步地,所述方法還包括:
配置待建立的DBN中的學習率以及權衰減,所述學習率為以權重更新量為權重的10-3倍為自調整范圍,所述權衰減包括梯度項、一個以權重參數的平方和的1/2乘以正則化系數的懲罰函數。
進一步地,所述方法還包括:
建立具有兩層網絡結構的RBM以及一層BP神經網絡的DBN,并將所述DBN中的學習率以及權衰減分別配置為所述以權重更新量為權重的10-3倍為自調整范圍的學習率,以及包括梯度項、一個以權重參數的平方和的1/2乘以正則化系數的懲罰函數的權衰減,并確定誤差率與迭代次數之間的關系,利用用于訓練的文本數據結合所述學習率、所述權衰減、所述誤差率、所述迭代次數對所述DBN進行訓練。
進一步地,所述學習率取值為0.62。
依據本發明一個方面,提供了一種文本的分類裝置,包括:
獲取單元,用于獲取待分類的文本數據;
分類單元,用于利用訓練好的深度信念網絡模型DBN對所述文本數據進行預測分類,所述深度信念網絡模型DBN是通過無監督訓練每一層波爾茲曼機網絡RBM得到特征向量后,利用配置為最后一層的分類器模型訓練所述特征向量得到的模型。
進一步地,所述裝置還包括:
配置單元,用于配置待建立的DBN中的學習率以及權衰減,所述學習率為以權重更新量為權重的10-3倍為自調整范圍,所述權衰減包括梯度項、一個以權重參數的平方和的1/2乘以正則化系數的懲罰函數。
進一步地,所述裝置還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧石油化工大學,未經遼寧石油化工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810505710.8/2.html,轉載請聲明來源鉆瓜專利網。





