[發(fā)明專利]一種基于極端梯度提升算法的新型冠狀病毒分類方法在審
| 申請?zhí)枺?/td> | 202110039827.3 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112766352A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設計)人: | 馬寶山;柴冰潔;陳玉珍;張樹正;吳一銘;羅璐瑤 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G16H50/80 |
| 代理公司: | 大連至誠專利代理事務所(特殊普通合伙) 21242 | 代理人: | 張海燕;楊威 |
| 地址: | 116000 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 極端 梯度 提升 算法 新型 冠狀病毒 分類 方法 | ||
1.一種基于極端梯度提升算法的新型冠狀病毒分類方法,包括如下步驟:
步驟1、獲取三種現(xiàn)存病毒數(shù)據(jù)集和新型冠狀病毒數(shù)據(jù)集;
步驟2、預處理三種病毒數(shù)據(jù)集和新型冠狀病毒數(shù)據(jù)集,之后將三種病毒數(shù)據(jù)集作為訓練集,新型冠狀病毒數(shù)據(jù)集作為獨立測試集;
步驟3、使用訓練集訓練并優(yōu)化XGBoost模型,并獲取最優(yōu)模型;
步驟4、使用最優(yōu)模型結(jié)合模型的特征選擇功能對獨立測試集分類,得到模型評估指標和測試集的預測標簽。
2.根據(jù)權利要求1所述的一種基于極端梯度提升算法的新型冠狀病毒分類方法,其特征在于,所述步驟1獲取三種現(xiàn)存病毒數(shù)據(jù)集和新型冠狀病毒數(shù)據(jù)集,其步驟包括:
步驟1a、從美國國家生物技術信息中心、全球共享流感數(shù)據(jù)倡議組織、Virus-Host DB三個平臺獲取所需的病毒數(shù)據(jù),包括甲型冠狀病毒屬,乙型冠狀病毒屬,丁型冠狀病毒屬,COVID-19序列;
步驟1b、排除所有小于2000堿基對和大于50000堿基對的DNA序列。
3.根據(jù)權利要求1所述的一種基于極端梯度提升算法的新型冠狀病毒分類方法,其特征在于,所述步驟2預處理三種病毒數(shù)據(jù)集和新型冠狀病毒數(shù)據(jù)集,之后將三種病毒數(shù)據(jù)集作為訓練集,新型冠狀病毒數(shù)據(jù)集作為獨立測試集,其步驟包括:
步驟2a、將DNA序列映射成離散數(shù)字序列;
步驟2b、采用零填充方法將DNA序列對應的離散數(shù)字序列長度歸一化到25000,其中長度小于25000的序列通過零填充擴展到25000,而長度大于25000的序列將其超過25000的部分刪除;
步驟2c、將所述離散數(shù)字序列進行離散傅里葉變換(DFT變換),取模后得到幅度譜,該幅度譜也是DNA序列的幅度譜;
步驟2d、計算出所有序列的幅度譜后,將甲型冠狀病毒屬,乙型冠狀病毒屬,丁型冠狀病毒屬的所有序列的幅度譜整合到一個數(shù)據(jù)集中,該數(shù)據(jù)集作為訓練集數(shù)據(jù),COVID-19序列的幅度譜整合到另一個數(shù)據(jù)集中,該數(shù)據(jù)集作為獨立測試集數(shù)據(jù)。
4.根據(jù)權利要求1所述的一種基于極端梯度提升算法的新型冠狀病毒分類方法,其特征在于,所述步驟3使用訓練集訓練并優(yōu)化XGBoost模型,并獲取最優(yōu)模型,其步驟包括:
步驟3a、將訓練集數(shù)據(jù)劃分為五份,其中一份作為驗證集,其余四份作為訓練集;
步驟3b、結(jié)合網(wǎng)格搜索法和三折交叉驗證對XGBoost模型的參數(shù)進行調(diào)整,將訓練集劃分成三份,其中一份作為內(nèi)部測試集,另外兩份作為內(nèi)部訓練集,在不同的參數(shù)組合下使用所述內(nèi)部訓練集訓練XGBoost模型,使用所述內(nèi)部測試集對XGBoost模型的分類性能進行評估,該步驟重復三次,得到三次評價指標中最高分數(shù)對應的參數(shù),作為XGBoost模型的最佳超參數(shù);
步驟3c、在訓練集上使用最佳超參數(shù)訓練模型,使用訓練好后的模型對驗證集預測,得到模型對驗證集的評估指標;
步驟3d、重復步驟3(a)至3(c)五次以實現(xiàn)五折交叉驗證,在五個驗證集中得到的評價指標取平均值作為XGBoost模型最終的分類性能指標;
步驟3e、選出五次訓練出的模型中的最優(yōu)模型,用以對獨立測試集分類。
5.根據(jù)權利要求1所述的一種基于極端梯度提升算法的新型冠狀病毒分類方法,其特征在于,所述步驟4使用最優(yōu)模型結(jié)合模型的特征選擇功能對測試集分類,得到模型評估指標和測試集的預測標簽,其步驟包括:
步驟4a、利用在訓練集上訓練好的最優(yōu)模型進行特征重要性排序,得分高的前L個特征為選取的特征子集;
步驟4b、選取訓練集上的特征子集訓練模型,在相同的特征方案下對測試集進行評估,得到模型評估指標以及測試集的預測標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經(jīng)大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110039827.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





