[發明專利]一種基于MPI的ML-KNN多標簽中文文本分類方法有效
| 申請號: | 201710026254.4 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN106886569B | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 王進;晏世凱;邵帥;李穎;歐陽衛華;胡峰;李智星;鄧欣;陳喬松;雷大江 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mpi ml knn 標簽 中文 文本 分類 方法 | ||
1.一種基于MPI的ML-KNN多標簽中文文本分類方法,其特征在于,包括以下步驟:
1)對訓練集和待預測數據集中的所有文本進行預處理,包括分詞,去停用詞及去低頻詞在內的步驟;
2)對預處理后的訓練集進行特征詞匯提取得到特征詞匯表,再根據特征詞匯表對訓練集和待預測數據集作文本矢量化表示;
3)構造分類器并分類:首先基于并行編程模型MPI將ML-KNN算法并行,然后使用訓練集對并行后的ML-KNN分類器進行訓練,最后使用訓練好的ML-KNN分類器對待預測文本數據集進行分類,得到待預測文本數據集分類結果;
步驟3)將ML-KNN分類器并行化的步驟包括:
首先將訓練數據集以特征為單位均勻劃分成p個特征數據列,再將每個特征數據列均勻劃分成q個特征數據子集,則原數據集被劃分成了p*q個特征數據子集;
將劃分好的特征數據子集通過MPI_Send函數傳入p*q個進程中,各個進程通過MPI_Recv函數接收,每個進程有且只有一個特征數子集,數據子集進行距離運算,再進行訓練集特征矩陣的劃分,得到近鄰矩陣N(xj);
將由人工標記的訓練集標簽信息傳入進程0,在進程0中計算先驗概率同時利用得到的近鄰矩陣N(xj)計算出后驗概率xj表示矩陣的特征值,H 表示沒有訓練數據時的事件,b表示標簽l的個數,E表示訓練數據;
進而求出測試樣本t對于標簽l的概率Pt,l(b)以及t是否含有標簽l。
2.根據權利要求1所述的基于MPI的ML-KNN多標簽中文文本分類方法,其特征在于,所述步驟1)中的分詞步驟是將原始文本中的中文句子按照一定的規范重新組合成詞序列的過程;去除停用詞的步驟是根據停用詞匯表刪除對分類沒有意義的停用詞匯;去除低頻詞的步驟是指去掉某些只在極少的文本中出現過的單詞,這樣的詞留在集合中會導致大部分文本樣本在該特征詞匯下的值為0。
3.根據權利要求1或2所述的基于MPI的ML-KNN多標簽中文文本分類方法,其特征在于,步驟2)特征的提取只針對訓練集,具體做法是將預處理后的訓練集進行詞頻統計,將在訓練集中出現次數大于設定閾值T的單詞加入特征詞匯表,并計算特征詞匯表中的每個單詞的IDF值以及每個單詞在文檔中的詞頻TF,將含有IDF值和TF值的特征詞匯表通過MPI_Bcast函數廣播至各個進程,再在各個進程中求出與該進程相對應文檔中單詞的TF-IDF值,實現文檔的向量化表示。
4.根據權利要求1所述的基于MPI的ML-KNN多標簽中文文本分類方法,其特征在于,使用的距離公式為:
dist(a,b)=a*b+b2
其中a為當前樣本的特征向量,b為目標樣本的特征向量,dist(a,b)表示當前樣本到其他目標樣本的距離,計算過程中需要用到的其他特征數據子集通過調用廣播函數MPI_Bcast傳入。
5.根據權利要求4所述的基于MPI的ML-KNN多標簽中文文本分類方法,其特征在于,在進行廣播前,需調用MPI_Comm_split函數將原始通信域劃分成q個獨立的通信域,即每個特征數據列所對應的進程為一個獨立的通信域,然后將計算好的包括樣本編號,特征名稱信息,與近鄰樣本的距離信息在內的結果通過MPI_Gatherv函數收集到進程0,在進程0中通過加法運算即得到ML-KNN算法中所需的近鄰矩陣N(xj)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710026254.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分表方法、裝置及電子設備
- 下一篇:頁面處理方法及裝置





