[發明專利]基于多隱層極限學習機的中文文本分類方法在審
| 申請號: | 201710665695.9 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN107451278A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 龐皓明;冀俊忠 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多隱層 極限 學習機 中文 文本 分類 方法 | ||
技術領域
本發明是屬于自然語言處理領域,是通過多隱層極限學習機模型對中文文本數據進行分類的方法。
背景技術
隨著現代科學技術的發展,人類知識的增長速度逐年加快,信息倍增的周期也越來越短,人類在近幾十年生產的信息已經超過了過去幾千年的信息總和。面對如此巨大的信息量,如何快速、準確、全面地定位到人們所需要的信息成為了一個新的挑戰。在此之前,人們釆用人工的方法對文本進行分類,即安排專業人員根據內容把文本劃分到一個或若干個類別中,這種人工方式的文本分類方法比較準確,但是耗費大量的人力和物力,而且時間成本很大。因此,迫切地需要提高海量信息的自動組織和管理能力,能夠快速、準確、全面地找到所需要的信息。自動文本分類方法作為處理和組織大量的文本數據的關鍵技術,能將大量的文本自動分類,可以在較大程度上解決信息雜亂的問題,方便用戶準確地定位需要的信息。
目前將文本自動分類的方法主要分為兩種:第一種是采用知識工程的文本分類方法,第二種是基于統計和機器學習的文本分類方法。采用知識工程的文本分類方法,即利用專家制定的規則進行分類。它通過專家手工編寫分類規則,然后通過對分類規則的組合形成分類系統。這種分類方法不僅需要大量的人力和物力而且制定的規則只適用于具體的問題。其中最著名的是卡內基集團為路透社開放的Construe系統,這個系統能夠自動地對路透社成千上萬篇文章進行自動分類。基于統計和機器學習的方法,它是依據統計學的知識和定律,建立相對應的數據模型對文本進行分類。它在實踐的過程中取得了很好的效果,并逐漸取代知識工程的文本分類方法。目前大量的基于統計和機器學習的文本分類方法應用到了文本分類中,例如:支持向量機模型(SupportVector Machine,VSM)、樸素貝葉斯模型(Naive Bayes,NB)、K近鄰模型(K-NearestNeigh,KNN)、正則化極限學習機模型(Regular Extreme Learning Machine,RELM)和深度信念網模型(Deep BeliefNetwork,DBN)等。
目前,基于統計和機器學習的方法在文本分類問題中有著廣泛的應用并且取得不錯的效果,但是其中也存在著一些缺陷。例如:支持向量機模型在文本分類的過程中需要學習大量的參數。而且支持向量機起源于二分類問題,將其擴展到文本分類的多分類問題中,分類的時間就是大大的增加。樸素貝葉斯模型在文本分類的過程中對特征的選擇十分敏感,非常依賴特征選擇的好壞。K近鄰模型在選擇閾值參數時非常地困難,閾值參數的選擇對分類結果影響非常明顯。正則化極限學習機模型是一種單隱藏層前饋神經網絡,具有學習速度快、泛化能力好的優點。但是當文本的維數過高時,文本分類的性能會受到影響。以上的幾種分類模型都屬于傳統機器學習模型,都屬于淺層機器學習模型。對高維文本數據進行表示時會受到限制,會出現語義缺失等問題,從而會影響文本分類的性能。深度信念網模型屬于深層機器學習模型,它通過對文本數據的高層特征表示,可以對文本數據能夠進行更加本質的刻畫。但是在其學習的過程中需要學習大量參數,具有訓練速度慢的缺點,而且在分類過程中容易出現過擬合的現象。本發明采用的是使用多隱層極限(Multi-Layer Extreme Learning Machine,ML-ELM)學習機模型作為分類器對文本進行分類,克服了淺層學習模型中對文本數據表示能力不足的限制,并且相對于深度信念模型具有學習速度快的優點。
發明內容
針對正則化極限學習機模型對中文文本數據表示能力不足的問題,本發明提出了一種將多隱層極限學習機模型應用到中文文本分類問題的方法。本發明充分利用了多隱層極限學習機模型的優勢,通過多隱層極限學習機多隱層的結構對文本數據進行高層特征表示,提高中文文本分類的準確率。并且通過多隱層極限學習機中極限學習機自編碼器(Extreme Learning MachineAuto-Encoder,ELM-AE)對高維數據進行降維,來解決高維中文文本數據的分類問題。
本發明提出了一種多隱層極限學習機的文本分類方法。用的技術方案為基于多隱層極限學習機的中文文本分類方法,該方法首先對語料庫進行預處理。然后選用中文語料庫中的詞作為文本特征,進行文本特征單元的構造。選用空間向量模型(Vector Space Model,VSM)作為文本的表示模型,使用TF-IDF計算特征權值,并進行特征選擇。接下來使用多隱層極限學習機模型對文本進行分類,分類包括極限學習機自編碼器對文本進行降維、多隱層結構對文本進行映射和對文本進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710665695.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有防水散熱裝置的油煙機深度清洗機
- 下一篇:一種農作物種子的清洗裝置





