[發(fā)明專利]基于Spark的并行化隨機(jī)標(biāo)簽子集多標(biāo)簽文本分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710086932.6 | 申請(qǐng)日: | 2017-02-17 |
| 公開(公告)號(hào): | CN106874478A | 公開(公告)日: | 2017-06-20 |
| 發(fā)明(設(shè)計(jì))人: | 王進(jìn);王鴻;夏翠萍;范磊;歐陽衛(wèi)華;陳喬松;雷大江;李智星;胡峰;鄧欣 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 重慶市恒信知識(shí)產(chǎn)權(quán)代理有限公司50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;85 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark 并行 隨機(jī) 標(biāo)簽 子集 文本 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息技術(shù)、云計(jì)算、數(shù)據(jù)挖掘、文本分類等領(lǐng)域,提供了一種基于Spark大數(shù)據(jù)平臺(tái)的并行化隨機(jī)標(biāo)簽子集多標(biāo)簽文本分類算法。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模呈海量增長,表現(xiàn)形式也不斷豐富。文本作為重要的信息載體,其自動(dòng)分類技術(shù)的發(fā)展能夠提高對(duì)海量信息的處理效率,節(jié)約處理時(shí)間,方便用戶的使用,近年來得到廣泛的關(guān)注和快速的發(fā)展。傳統(tǒng)有監(jiān)督學(xué)習(xí)認(rèn)為每個(gè)樣本只具有一個(gè)標(biāo)簽,缺乏準(zhǔn)確表述事物的復(fù)雜語義信息的能力。但是一個(gè)樣本可能對(duì)應(yīng)與之相關(guān)的多個(gè)標(biāo)簽,例如文本信息往往同時(shí)擁有多個(gè)語義,比如一個(gè)文本信息可能同時(shí)與計(jì)算機(jī)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)、社會(huì)效益等相關(guān)聯(lián)。有效明確解釋事物具有的多個(gè)語義的一個(gè)直接方法就是給一個(gè)事物標(biāo)注多個(gè)標(biāo)簽,因此多標(biāo)簽學(xué)習(xí)(Multi-Label Learning)也應(yīng)運(yùn)而生。在多標(biāo)簽學(xué)習(xí)中,每個(gè)樣本可能包含一個(gè)或多個(gè)標(biāo)簽,被多個(gè)標(biāo)簽標(biāo)注的樣本能夠更好的表現(xiàn)事物語義信息的多樣性,也能夠使其分類更具現(xiàn)實(shí)意義。
隨機(jī)標(biāo)簽子集多標(biāo)簽(ECC)算法是多標(biāo)簽分類算法的一種,其核心思想為將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)換為多個(gè)隨機(jī)標(biāo)簽子集的學(xué)習(xí)過程。該算法考慮了標(biāo)簽之間的關(guān)聯(lián)性并且加入了隨機(jī)因素,在實(shí)際使用中分類效果很好。但由于訓(xùn)練階段需要對(duì)于同一樣本集進(jìn)行多個(gè)隨機(jī)標(biāo)簽子集進(jìn)行多次訓(xùn)練,構(gòu)建多個(gè)訓(xùn)練模型;預(yù)測(cè)階段需要使用訓(xùn)練階段構(gòu)建的多個(gè)模型進(jìn)行多次預(yù)測(cè)過程,因此時(shí)間復(fù)雜度和空間復(fù)雜度較高,隨著數(shù)據(jù)量的增大,采用傳統(tǒng)串行算法難以應(yīng)對(duì)規(guī)模越來越大的數(shù)據(jù)集,出現(xiàn)運(yùn)行時(shí)間過長,內(nèi)存溢出等情況,不能滿足工程需求。近幾年來,大數(shù)據(jù)技術(shù)的發(fā)展為解決此類問題提供了理想的條件和思路。
Spark是一個(gè)基于內(nèi)存的分布式計(jì)算系統(tǒng),是由UC Berkeley AM P Lab實(shí)驗(yàn)室于2009年開發(fā)的開源數(shù)據(jù)分析集群計(jì)算框架。擁有MapReduce的所有優(yōu)點(diǎn),與MapReduce不同的是.Spark將計(jì)算的中間結(jié)果數(shù)據(jù)持久地存儲(chǔ)在內(nèi)存中,通過減少磁盤I/O,使后續(xù)的數(shù)據(jù)運(yùn)算效率更高。Spark的這種架構(gòu)設(shè)計(jì)尤其適合于機(jī)器學(xué)習(xí)、交互式數(shù)據(jù)分析等應(yīng)用.這些應(yīng)用都需要重復(fù)地利用計(jì)算的中間數(shù)據(jù)。在Spark和Hadoop的性能基準(zhǔn)測(cè)試對(duì)比中,運(yùn)行基于內(nèi)存的logistic regression,在迭代次數(shù)相同的情況下,Spark的性能超出Hadoop MapReduce 100倍以上。兩者之間在計(jì)算過程中也存在一些不同之處,比如MapReduce輸出的中間結(jié)果需要讀寫HDFS,而Spark框架會(huì)把中間結(jié)果保存在內(nèi)存中。這些不同之處使Spark在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。而彈性分布式數(shù)據(jù)集(RDD,Resilient Distributed Datasets)是Spark框架的核心數(shù)據(jù)結(jié)構(gòu),它具備像MapReduce等數(shù)據(jù)流模型的容錯(cuò)特性,并且允許開發(fā)人員在大型集群上執(zhí)行基于內(nèi)存的計(jì)算。Spark將數(shù)據(jù)集運(yùn)行的中間結(jié)果保存在內(nèi)存中能夠極大地提高性能,資源開銷也極低,非常適合多次迭代的機(jī)器學(xué)習(xí)算法。
彈性分布式數(shù)據(jù)集(RDD)是Spark的核心數(shù)據(jù)結(jié)構(gòu)。這個(gè)數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計(jì)算間重用。傳統(tǒng)的MapReduce雖然具有自動(dòng)容錯(cuò)、平衡負(fù)載和可拓展性的優(yōu)點(diǎn),但是其最大缺點(diǎn)是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計(jì)算式要進(jìn)行大量的磁盤IO操作。RDD正是解決這一缺點(diǎn)的抽象方法。通過RDD,Spark可以基本一致的應(yīng)用于不同的大數(shù)據(jù)處理場(chǎng)景,如MapReduce,實(shí)時(shí)流數(shù)據(jù),SQL,Machine Learning和圖計(jì)算等。RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu),可以顯式的將數(shù)據(jù)存儲(chǔ)在內(nèi)存和磁盤中,并且能夠控制數(shù)據(jù)的分區(qū)狀態(tài)。RDD還提供了一系列操作接口,用戶通過這組接口,可以方便的操作其中的數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710086932.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲(chǔ)器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測(cè)裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲(chǔ)介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備





