[發(fā)明專利]Spark框架下的稀疏多元邏輯回歸模型對文本情感分類的方法有效
| 申請?zhí)枺?/td> | 201810331615.0 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN108549692B | 公開(公告)日: | 2021-05-11 |
| 發(fā)明(設(shè)計)人: | 雷大江;杜萌;陳浩;張莉萍;吳渝;楊杰;程克非 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/182;G06F40/289 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 賈允;肖丁 |
| 地址: | 400065*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | spark 框架 稀疏 多元 邏輯 回歸 模型 文本 情感 分類 方法 | ||
本發(fā)明提供了一種Spark框架下的稀疏多元邏輯回歸模型對文本情感分類的方法,包括:將訓(xùn)練樣本數(shù)據(jù)集存儲于HDFS中;Spark平臺從HDFS中讀取數(shù)據(jù)生成RDD;Spark平臺將數(shù)據(jù)的預(yù)處理任務(wù)分為多個任務(wù)組,對每個任務(wù)組中存儲有讀取數(shù)據(jù)的RDD進行預(yù)處理,將預(yù)處理的結(jié)果存入HDFS中;訓(xùn)練稀疏多元邏輯回歸模型,經(jīng)過求解得到稀疏多元邏輯回歸分類器;將所述稀疏多元邏輯回歸分類器輸出到HDFS中;從HDFS中讀取經(jīng)過預(yù)處理的待預(yù)測文本的數(shù)據(jù)和訓(xùn)練得到的稀疏多元邏輯回歸分類器;獲取所述待預(yù)測文本的情感分類。本發(fā)明在Spark計算框架下使用ADMM并行方法求解優(yōu)化問題,使得模型訓(xùn)練更加快速,更適合大數(shù)據(jù)場景下的文本情感分類;有效提升了分類的效率與精度。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式機器學(xué)習(xí)領(lǐng)域,尤其涉及一種Spark框架下的稀疏多元邏輯回歸模型對文本情感分類方法。
背景技術(shù)
分類作為機器學(xué)習(xí)、數(shù)據(jù)挖掘的關(guān)鍵部分,在圖像識別、藥物開發(fā)、語音識別、手寫辨識等方面有著廣泛的應(yīng)用。它是基于已知訓(xùn)練集識別一個新的實例屬于哪個類別的有監(jiān)督的學(xué)習(xí)問題。
隨著數(shù)據(jù)規(guī)模的不斷擴大,稀疏多元邏輯回歸(Sparse Multinomial LogisticRegression,SMLR)問題的串行求解方法已經(jīng)難以滿足大數(shù)據(jù)應(yīng)用中時間和存儲空間上的限制。在眾多的分布式算法中,交替方向乘子法(Alternating Direction Method ofMultipliers,ADMM)因具有高分解性和收斂性的特點而被廣泛應(yīng)用于與分布式機器學(xué)習(xí)領(lǐng)域。
交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)作為一種求解優(yōu)化問題的計算框架,適用于求解分布式凸優(yōu)化問題。ADMM算法為機器學(xué)習(xí)中的約束最優(yōu)化問題的高效分布式求解提供了可能。原始的ADMM算法在統(tǒng)計機器學(xué)習(xí)、數(shù)據(jù)挖掘和計算機視覺等領(lǐng)域中得到了廣泛應(yīng)用。ADMM算法主要解決帶有等式約束的關(guān)于兩個變量的目標(biāo)函數(shù)的最小化問題。相對于乘子法,ADMM算法最大的優(yōu)勢在于其能夠充分利用目標(biāo)函數(shù)的可分解性,對目標(biāo)函數(shù)中的多變量進行交替優(yōu)化。ADMM的優(yōu)化框架是分解-協(xié)作(Decomposition-Coordination)的過程,具有可滿足并行化的優(yōu)勢。作為能夠有效地協(xié)調(diào)多個節(jié)點之間子全局模型變量優(yōu)化的強有力工具,ADMM在分布式優(yōu)化和統(tǒng)計學(xué)習(xí)中扮演著舉足輕重的角色,受到了研究學(xué)者的極大關(guān)注。ADMM發(fā)展至今,己經(jīng)被廣泛地應(yīng)用到機器學(xué)習(xí)、數(shù)據(jù)挖掘和信號處理等領(lǐng)域。
多元邏輯回歸(Multinomial Logistic Regression,MLR),是邏輯回歸模型(Logistic Regression,LR)在多分類問題上的推廣。對于多分類問題來說,類別之間通常是互斥的。因此,使用多元邏輯回歸相較于邏輯回歸通常能得到更好的結(jié)果。同時,多元邏輯回歸只需要訓(xùn)練一次即可,因此它也具有較快的運行速度。引入了L1正則項的多元邏輯回歸稱作稀疏多元邏輯回歸(Sparse Multinomial Logistic Regression,SMLR)。隨著數(shù)據(jù)規(guī)模不斷擴大,人們對高性能并行化算法的需求越來越迫切。因此,SMLR算法的分布式實現(xiàn)具有重要的現(xiàn)實意義,而ADMM算法的提出也為SMLR算法的并行求解提供了可能。
Apache Spark作為一種當(dāng)今最流行的分布式計算框架之一,它是基于內(nèi)存計算和并行計算的,非常適合大數(shù)據(jù)挖掘和機器學(xué)習(xí)。在速度方面,它是基于內(nèi)存計算的,而Hadoop將中間計算結(jié)果寫到HDFS文件系統(tǒng),每次讀寫操作都要讀寫HDFS文件系統(tǒng),所以Spark比Hadoop要快上100倍;而訪問磁盤的速度比Hadoop快10倍。所以Spark更適合運行更復(fù)雜的算法,例如:迭代計算、圖計算等。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810331615.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Spark平臺性能自動優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計算機可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品





