[發明專利]一種基于 Spark 平臺的高效率文本分類方法在審
| 申請號: | 201610066429.X | 申請日: | 2016-01-29 |
| 公開(公告)號: | CN105740424A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 唐卓;魯彬;李肯立;李巧巧;陳建國;熊燎特 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市興科達知識產權代理有限公司 44260 | 代理人: | 王翀 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 平臺 高效率 文本 分類 方法 | ||
1.一種基于Spark平臺的高效率文本分類方法,其特征在于,該方法包括:
(1)在物理服務器上構建具有虛擬機的HDFS文件系統和Spark平臺,并將數據集上傳到HDFS文件系統中;
(2)通過客戶端向Spark平臺提交作業,Spark平臺從HDFS文件系統中讀取數據,將讀取的數據轉換為彈性分布式數據集RDD,并將其存儲在內存中;
(3)根據所述RDD中的分區partition之間的依賴關系,Spark平臺將所有任務分為不同的任務組stage,然后運行各個stage中的任務;
(4)在所述Spark平臺上,對所述RDD進行預處理并將結果輸出到HDFS文件系統上;
(5)進行訓練,將步驟(4)中緩存的RDD中的文本內容進行向量化,轉化為分布式行向量;并且通過特征項的權重計算,計算每一個特征項的權重;然后根據改進的條件概率公式,計算條件概率、訓練集特征項頻率之和向量、訓練集標識頻率向量,并且將這些參數廣播到各個工作節點;
(6)測試分類模型,各工作節點計算出文本在所有類中最大概率,最后將結果輸出。
2.如權利要求1所述的基于Spark平臺的高效率文本分類方法,其特征在于,所述步驟(2)中,根據用戶程序設定的RDD中partition數目來啟動一定數目的并發線程數讀取數據。
3.如權利要求1所述的基于Spark平臺的高效率文本分類方法,其特征在于,所述步驟(4)中,在所述Spark平臺上對所述RDD進行預處理并將結果輸出到HDFS文件系統上的方法進一步包括:
各個工作節點從RDD中讀取數據進行轉換操作,先進行filter操作,過濾掉其中的停用詞,以去除文本中的一些對分類無實際作用的噪聲數據;然后對數據集中的特征項按照信息增益方法過濾掉一些信息增益很小的特征項,并將此時的RDD拷貝一份緩存起來;接著對數據集中的特征項進行聚合操作,最后在將各工作節點的結果輸出到HDFS文件系統上。
4.如權利要求1所述的基于Spark平臺的高效率文本分類方法,其特征在于,所述Spark平臺由低層至高層依次包括:存儲系統、資源管理器、計算框架及應用層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610066429.X/1.html,轉載請聲明來源鉆瓜專利網。





