[發明專利]一種基于DA_FASTTEXT的文檔分類方法在審
| 申請號: | 202210204280.2 | 申請日: | 2022-03-03 |
| 公開(公告)號: | CN114564957A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 王棟平;阮祥超;朱丹;姚興霖;陶輝;徐文健 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06N3/00 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 陸志斌 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 da_fasttext 文檔 分類 方法 | ||
本發明公開了一種基于DA_FASTTEXT的文檔分類方法,包括如下步驟:S1、郵件文檔預處理;S2、通過DA算法對FASTTEXT進行參數尋優;S3、DA_FASTTEXT分類模型訓練;S4、實時郵件分類,對郵件主題、郵件內容、附件標題和附件內容進行解析,并將解析后的內容分別進行jieba分詞,按分詞后的郵件主題、郵件內容、附件標題、附件內容順序拼接后輸入到DA_FASTTEXT模型中,獲取當前郵件對應的類別信息返回給用戶。該種基于DA_FASTTEXT的文檔分類方法,采用FASTTEXT算法對郵件文檔進行分類識別,提高模型識別的準確性和效率;對于FASTTEXT算法參數較多難以快速擬合問題,利用DA算法對參數進行尋優,得到最優的FASTTEXT分類模型。
技術領域
本發明涉及自然語言深度學習技術領域,具體為一種基于DA_FASTTEXT的文檔分類方法。
背景技術
隨著互聯網信息的爆炸式增長,各種文本信息日益增長,面對如此巨大的信息,人工分類選擇已無能為力,因此,機器自動化文檔分類方法應運而生,提高了分類的效率和質量,方便用戶準確地定位所需的信息和分流信息,具有廣泛的應用前景。
現有技術中存在一些文檔分類方法:
1、基于樸素貝葉斯的新聞文檔分類算法:對不同類別的新聞數據進行分詞和刪除停用詞處理,然后將TF-IDF與N-Gram結合進行降維處理,構造樸素貝葉斯分類器,利用該分類器對其他新聞數據進行類別標注。
2、基于支持向量機的農業文檔分類算法:構建農業行業分類關鍵詞庫,通過特征詞選擇和權重計算,構建支持向量機分類器模型,該模型實現了農業文檔信息的自動分類。
現如今,隨著信息化的飛速發展,與日俱增的文本信息分類不僅依賴分類方法的效果,還依賴于分類方法的速度,現有技術無法同時滿足分類的質量和效率。FASTTEXT文本分類算法的出現完美解決了上述問題,與其他分類算法相比在保證分類準確性的同時還降低了時間開銷。而FASTTEXT美中不足的地方是算法參數過多,模型的效果依賴于參數值的設定,而蜻蜓算法(DA)可用于參數尋優,有助于快速找到FASTTEXT的最優參數解。
基于此,本發明實施例提供了一種基于DA_FASTTEXT文檔分類方法。
發明內容
為了解決上述技術問題,本發明提供了如下的技術方案:
本發明一種基于DA_FASTTEXT的文檔分類方法,包括如下步驟:
S1、郵件文檔預處理;
S2、通過DA算法對FASTTEXT進行參數尋優,具體流程如下:
S2-1、初始化DA算法參數:最大迭代次數MAX_EPOCHS,種群數量N;
S2-2、初始化搜索空間中蜻蜓的位置向量X,方向向量△X,FASTTEXT模型參數:學習因子lr、訓練迭代次數epoch和向量維度dim組合形成各只蜻蜓需優化的參數組合,其中X矩陣的第1,2,3行分別存放lr、epoch和dim的值;
S2-3、根據DA算法更新當前迭代次數t時蜻蜓的位置向量Xt+1;
S2-4、計算適應度值;
S2-5、搜尋領域中有無蜻蜓個體存在,以歐式距離作為領域中有無蜻蜓存在的根據,若存在,則取N0情況下的位置向量更新公式,更新位置與步長,若不存在,用N=0情況下的位置向量更新公式對位置進行更新;
S2-6、計算蜻蜓5個行為的行為位置向量以及對應的權重s,a,c,f,e的值;
S2-7、更新位置向量X和方向向量△X;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210204280.2/2.html,轉載請聲明來源鉆瓜專利網。





