[發(fā)明專利]一種基于特征層次的多目標系統(tǒng)發(fā)育樹構(gòu)建方法有效
| 申請?zhí)枺?/td> | 202010168038.5 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111462812B | 公開(公告)日: | 2023-03-24 |
| 發(fā)明(設計)人: | 馮筠;劉澤云;劉蒙;侯剛;馮宏偉 | 申請(專利權(quán))人: | 西北大學 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G06N3/126 |
| 代理公司: | 西安恒泰知識產(chǎn)權(quán)代理事務所 61216 | 代理人: | 李鄭建 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 層次 多目標 系統(tǒng)發(fā)育 構(gòu)建 方法 | ||
本發(fā)明公開了一種基于特征層次的多目標系統(tǒng)發(fā)育樹構(gòu)建方法,該方法結(jié)合形態(tài)數(shù)據(jù)的特征描述,首先生成對應的特征層次關系,并結(jié)合特征之間的依賴關系對缺失值進行估計,從而得到完整的數(shù)據(jù)集;然后結(jié)合基于不可適用Fitch算法的最大簡約原則和最大似然原則,進行并行多目標系統(tǒng)發(fā)育樹構(gòu)建,不僅能夠很好地度量不可適用數(shù)據(jù)帶來的問題,也避免了單一原則下建樹的局限性。相較于傳統(tǒng)系統(tǒng)發(fā)育分析方法,能夠很好地解決缺失數(shù)據(jù)、不可適用數(shù)據(jù)造成的樹結(jié)構(gòu)不確定性問題,并通過多種建樹原則,為生物學家研究物種進化提供依據(jù)。
技術領域
本發(fā)明屬于生物信息領域,涉及系統(tǒng)發(fā)育學研究中的發(fā)育樹分析與構(gòu)建,具體涉及一種基于特征層次的多目標系統(tǒng)發(fā)育樹構(gòu)建方法。
背景技術
系統(tǒng)發(fā)育學研究的是進化關系,如物種或種群之間的進化歷史和關系,了解何時以及可能發(fā)生的物種形成事件,從而研究物種起源。而系統(tǒng)發(fā)育分析就是要推斷及評估這些進化關系,其目的是找到符合物種進化的系統(tǒng)發(fā)育樹。為了更清楚的了解研究目的,通過圖1看出:通過對采集到的化石進行形態(tài)數(shù)據(jù)整理,可以得到物種特征矩陣;通過對形態(tài)數(shù)據(jù)進行系統(tǒng)發(fā)育分析,從而得到能夠反映物種進化關系的系統(tǒng)發(fā)育樹。
相較分子系統(tǒng)發(fā)育學,形態(tài)系統(tǒng)發(fā)育學由于形態(tài)特征的局限性,基于形態(tài)學的系統(tǒng)發(fā)育分析發(fā)展緩慢。對于早期古生物的系統(tǒng)發(fā)育分析來說,由于年代久遠、保存環(huán)境變遷,分子數(shù)據(jù)非常不穩(wěn)定以及化石保存及觀察手段的限制等原因,可用于系統(tǒng)發(fā)育分析的材料只有形態(tài)學數(shù)據(jù),形態(tài)學數(shù)據(jù)是進行古生物系統(tǒng)發(fā)育分析的重要依據(jù)。由于化石記錄的缺失以及物種特征層次關系的存在,形態(tài)學數(shù)據(jù)中常常含有大量的缺失數(shù)據(jù)和不可適用數(shù)據(jù)(注:當物種中某個特征的存在取決于另一個不存在的特征時,就會出現(xiàn)不可適用數(shù)據(jù)。),且現(xiàn)有的方法不能有效地處理“問題”數(shù)據(jù),造成系統(tǒng)發(fā)育樹構(gòu)建不準確,為生物學家研究物種進化造成困擾。
與此同時,常用的系統(tǒng)發(fā)育分析方法,包括基于距離的方法和基于最優(yōu)原則的方法,前者主要包括鄰接法、UPGMA;后者主要包括最大簡約法、最大似然法和貝葉斯推斷法。而現(xiàn)有主流的工具是基于單一最優(yōu)原則的。通常情況下,在一個形態(tài)數(shù)據(jù)集上會執(zhí)行多個方法。然而,多個系統(tǒng)發(fā)育推斷的結(jié)果可能是沖突或是一致的。當目標相互沖突,通常沒有任何方法可以滿足所有目標。
發(fā)明內(nèi)容
針對上述現(xiàn)有技術中形態(tài)數(shù)據(jù)中存在缺失數(shù)據(jù)和不可適用數(shù)據(jù)造成系統(tǒng)發(fā)育樹構(gòu)建不穩(wěn)定的技術問題,本發(fā)明的目的在于,提供一種基于特征層次的多目標系統(tǒng)發(fā)育樹構(gòu)建方法,該方法結(jié)合先驗知識生成特征層次關系,以特征層次關系為依托,分析特征依賴關系下的形態(tài)數(shù)據(jù)分布情況,進而對缺失數(shù)據(jù)進行估計,從而得到完整的形態(tài)學數(shù)據(jù)集;從完整的形態(tài)學數(shù)據(jù)出發(fā),采用Martin D.Brazeau(2017)年所提出的不可適用Fitch算法度量不可適用數(shù)據(jù),結(jié)合最大簡約原則和最大似然原則進行多目標系統(tǒng)發(fā)育樹構(gòu)建,從而生成同時滿足最大簡約原則和最大似然原則的Pareto最優(yōu)樹群,為生物學家研究物種進化提供依據(jù)。
為了實現(xiàn)上述任務,本發(fā)明采用以下的技術解決方案:
一種基于特征層次的多目標系統(tǒng)發(fā)育樹構(gòu)建方法,其特征在于,具體包括以下步驟:
步驟一,構(gòu)建并形式化特征層次關系
結(jié)合特征描述和先驗知識等相關信息,分析特征間的依賴關系,從而構(gòu)建特征層次關系;對構(gòu)建的特征層次關系進行形式化表示,使其轉(zhuǎn)化為計算機能夠處理的數(shù)據(jù)矩陣;
步驟二,基于特征層次的馬爾科夫蒙特卡洛算法進行形態(tài)數(shù)據(jù)缺失值估計
步驟2.1,對不完整的形態(tài)矩陣Dincom進行缺失值初始化,根據(jù)列取值對缺失數(shù)據(jù)進行隨機插補;
步驟2.2,結(jié)合特征層次關系進行列分析,分析每一列的參數(shù)分布,以便估計參數(shù)的后驗分布,主要包括以下幾種情況:
(1)存在主特征,但無從屬特征:
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北大學,未經(jīng)西北大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010168038.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





