[發(fā)明專利]一種基于weka接口的分布式機器學習方法有效
| 申請?zhí)枺?/td> | 201610004032.8 | 申請日: | 2016-01-04 |
| 公開(公告)號: | CN105677615B | 公開(公告)日: | 2018-11-23 |
| 發(fā)明(設(shè)計)人: | 崔寶江;石佩林;張曉瑋;田進山 | 申請(專利權(quán))人: | 北京郵電大學;北京奇虎科技有限公司 |
| 主分類號: | G06F15/18 | 分類號: | G06F15/18 |
| 代理公司: | 北京永創(chuàng)新實專利事務(wù)所 11121 | 代理人: | 姜榮麗 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 weka 接口 分布式 機器 學習方法 | ||
本發(fā)明公開了一種基于weka接口的分布式機器學習方法及其實現(xiàn)裝置,屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。所述方法包括數(shù)據(jù)預處理、特征提取和weka格式文件的本地訓練,最后云計算平臺進行線上海量數(shù)據(jù)分布式測試,生成最終檢測結(jié)果。所述的實現(xiàn)裝置包括解析模塊、訓練模塊和測試模塊。所述的解析模塊包括數(shù)據(jù)預處理子模塊和特征提取子模塊。本發(fā)明采用機器學習分布式處理,縮短了整個機器學習過程的時間;擴展了weka的應(yīng)用范圍,實現(xiàn)了從單機模式到分布式模式的轉(zhuǎn)變;本發(fā)明將機器學習過程和擴展到分布式模式的weka巧妙結(jié)合,達到良好的機器學習的效果。
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種基于weka接口的分布式機器學習的方法。
背景技術(shù)
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,各種信息呈現(xiàn)爆炸性增長,且包含豐富的知識。從海量數(shù)據(jù)信息中挖掘得到有用的知識仍然是一個挑戰(zhàn)性的課題。近幾十年來,機器學習和數(shù)據(jù)挖掘技術(shù),作為從海量數(shù)據(jù)信息中挖掘有用信息的關(guān)鍵技術(shù)已經(jīng)引起了廣泛的興趣和研究。但是由于數(shù)據(jù)規(guī)模的增長,以往的很多研究工作并不能有效地處理大規(guī)模數(shù)據(jù),海量的數(shù)據(jù)造成了在機器學習和數(shù)據(jù)挖掘過程的時間相當長,又由于weka是基于JAVA環(huán)境下開源的機器學習(machine learning)以及數(shù)據(jù)挖掘(data minining)軟件,集合了大部分機器學習的算法,如分類、回歸、聚類、關(guān)聯(lián)規(guī)則等。大數(shù)據(jù)的爆炸式增長考驗著weka這一分析工具的處理能力。Hadoop框架等新興技術(shù)則全面展示了捕獲、管理和分析大數(shù)據(jù)的全新方法。大數(shù)據(jù)挑戰(zhàn)與新技術(shù)的結(jié)合帶來了標志性的轉(zhuǎn)變,從而推動企業(yè)重新審視他們的IT基礎(chǔ)設(shè)施和分析能力。
Hadoop框架使用一個簡單的編程模型,以支持在計算機集群上對大數(shù)據(jù)集進行分布式處理。其完整的技術(shù)堆棧包含了通用實用程序、一個分布式文件系統(tǒng)、分析和數(shù)據(jù)存儲平臺以及一個用于管理分布式處理、并行計算、工作流程與配置管理的應(yīng)用層。除了提供高可用性外,Hadoop框架還能比傳統(tǒng)方法更為經(jīng)濟高效地處理大型的、復雜的或非結(jié)構(gòu)化的數(shù)據(jù)集,可帶來出色的可擴展性與速度。MapReduce是Hadoop框架中的軟件編程框架,能夠簡化大型數(shù)據(jù)集的處理工作,并為編程人員在計算機集群中定義和協(xié)調(diào)復雜的處理任務(wù)提供了一種通用方法。MapReduce應(yīng)用程序通過安排任務(wù)、監(jiān)控活動和重新執(zhí)行失敗的任務(wù)來協(xié)調(diào)集群節(jié)點的處理任務(wù)。輸入和輸出信息均存儲在Hadoop分布式文件系統(tǒng)(HadoopDistributed File System,簡稱HDFS)中。Hadoop分布式文件系統(tǒng)通常在相同的節(jié)點上處理和存儲數(shù)據(jù),從而能夠更高效地在數(shù)據(jù)駐留的節(jié)點上安排任務(wù),并在節(jié)點間實現(xiàn)更高的聚合帶寬。
面對海量數(shù)據(jù),縮短機器學習和數(shù)據(jù)挖掘的訓練和測試的時間,盡快輸出結(jié)果成為如今的熱點問題。
發(fā)明內(nèi)容
目前的運用weka進行機器學習還處于小吞吐量的階段,面對TB級別的海量數(shù)據(jù)表現(xiàn)出數(shù)據(jù)吞吐量不夠,運行時間長等缺陷,基于機器學習的數(shù)據(jù)分析已經(jīng)進入大數(shù)據(jù)時代,所以本發(fā)明針對以上情況設(shè)計了一種基于weka接口的分布式機器學習方法。
一種基于weka接口的分布式機器學習方法,包括如下步驟:
第一步,數(shù)據(jù)預處理:web日志文件被切分成n個小文件,提取出統(tǒng)一資源標識符,對統(tǒng)一資源標識符進行包括靜態(tài)文件過濾、大寫轉(zhuǎn)小寫,將連續(xù)的斜線”/”轉(zhuǎn)換為一個斜線以及解碼操作。
第二步,特征提取。
對步驟一中預處理后的uri采取分割取字段、根據(jù)uri的組成類型、是否含特殊字符、長度、關(guān)鍵字出現(xiàn)個數(shù)和一定規(guī)則的權(quán)值計算得出所要提取的21個特征,以向量的形式輸出特征向量;并對特征向量進行量化和合并處理,生成結(jié)果文件。
第三步,weka格式文件的本地訓練。
本地訓練時調(diào)用weka接口,運用weka接口里面已封裝好的隨機森林算法,生成模型文件RandomForest.model,上傳到云計算平臺。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學;北京奇虎科技有限公司,未經(jīng)北京郵電大學;北京奇虎科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610004032.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F15-00 通用數(shù)字計算機
G06F15-02 .通過鍵盤輸入的手動操作,以及應(yīng)用機內(nèi)程序的計算,例如,袖珍計算器
G06F15-04 .在引入被處理的數(shù)據(jù)的同時,進行編制程序的,例如,在同一記錄載體上
G06F15-08 .應(yīng)用插接板編制程序的
G06F15-16 .兩個或多個數(shù)字計算機的組合,其中每臺至少具有一個運算器、一個程序器及一個寄存器,例如,用于數(shù)個程序的同時處理
G06F15-18 .其中,根據(jù)計算機本身在一個完整的運行期間內(nèi)所取得的經(jīng)驗來改變程序的;學習機器





