[發(fā)明專利]一種基于DA_FASTTEXT的文檔分類方法在審
| 申請?zhí)枺?/td> | 202210204280.2 | 申請日: | 2022-03-03 |
| 公開(公告)號: | CN114564957A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計)人: | 王棟平;阮祥超;朱丹;姚興霖;陶輝;徐文健 | 申請(專利權(quán))人: | 南京烽火星空通信發(fā)展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06N3/00 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 陸志斌 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 da_fasttext 文檔 分類 方法 | ||
1.一種基于DA_FASTTEXT的文檔分類方法,其特征在于,包括如下步驟:
S1、郵件文檔預(yù)處理;
S2、通過DA算法對FASTTEXT進行參數(shù)尋優(yōu),具體流程如下:
S2-1、初始化DA算法參數(shù):最大迭代次數(shù)MAX_EPOCHS,種群數(shù)量N;
S2-2、初始化搜索空間中蜻蜓的位置向量X,方向向量△X,F(xiàn)ASTTEXT模型參數(shù):學(xué)習(xí)因子lr、訓(xùn)練迭代次數(shù)epoch和向量維度dim組合形成各只蜻蜓需優(yōu)化的參數(shù)組合,其中X矩陣的第1,2,3行分別存放lr、epoch和dim的值;
S2-3、根據(jù)DA算法更新當(dāng)前迭代次數(shù)t時蜻蜓的位置向量Xt+1;
S2-4、計算適應(yīng)度值;
S2-5、搜尋領(lǐng)域中有無蜻蜓個體存在,以歐式距離作為領(lǐng)域中有無蜻蜓存在的根據(jù),若存在,則取N0情況下的位置向量更新公式,更新位置與步長,若不存在,用N=0情況下的位置向量更新公式對位置進行更新;
S2-6、計算蜻蜓5個行為的行為位置向量以及對應(yīng)的權(quán)重s,a,c,f,e的值;
S2-7、更新位置向量X和方向向量△X;
S2-8、判斷迭代次數(shù)是否到達最大迭代次,若滿足條件,則直接跳出,同時輸出最優(yōu)參數(shù)組合,若不滿足,則迭代次數(shù)+1,跳轉(zhuǎn)執(zhí)行步驟S2-3;
S3、DA_FASTTEXT分類模型訓(xùn)練,具體流程如下:
S3-1、設(shè)置FASTEXT算法的模型參數(shù),學(xué)習(xí)因子lr,訓(xùn)練迭代次數(shù)epoch和向量維度dim為DA算法得到的最優(yōu)參數(shù)組合;
S3-2、采用郵件文檔預(yù)處理得到的訓(xùn)練數(shù)據(jù)對FASTTEXT模型進行模型訓(xùn)練,最終得到最優(yōu)的DA_FASTTEXT郵件分類模型;
S4、實時郵件分類,具體流程如下:
S4-1、對郵件主題、郵件內(nèi)容、附件標(biāo)題和附件內(nèi)容進行解析;
S4-2、將解析后的內(nèi)容分別進行jieba分詞,按分詞后的郵件主題、郵件內(nèi)容、附件標(biāo)題、附件內(nèi)容順序拼接后輸入到DA_FASTTEXT模型中,獲取當(dāng)前郵件對應(yīng)的類別信息返回給用戶。
2.根據(jù)權(quán)利要求1所述的一種基于DA_FASTTEXT的文檔分類方法,其特征在于,所述郵件文檔預(yù)處理包括:
制定郵件分類標(biāo)準(zhǔn),將郵件分為:人事調(diào)動、應(yīng)聘入職、簡歷、招投標(biāo)、需求方案、進度六大類,對訓(xùn)練郵件語料進行人工標(biāo)注,分別歸類到制定的分類標(biāo)準(zhǔn)類別中;
提取郵件主題、郵件內(nèi)容、附件標(biāo)題、附件內(nèi)容,分別對郵件主題、郵件內(nèi)容、附件標(biāo)題、附件內(nèi)容進行jieba分詞處理后進行內(nèi)容拼接,將處理后的郵件中80%作為訓(xùn)練集,20%作為測試集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京烽火星空通信發(fā)展有限公司,未經(jīng)南京烽火星空通信發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210204280.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





