[發明專利]基于頻繁模式和機器學習雙推薦制的核定位信號預測方法有效
| 申請號: | 201811523117.2 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109637589B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 沈紅斌;郭蕓 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B35/00 |
| 代理公司: | 上海伯瑞杰知識產權代理有限公司 31227 | 代理人: | 俞磊 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 頻繁 模式 機器 學習 推薦 核定 信號 預測 方法 | ||
本發明涉及蛋白質生物學領域,具體涉及一種基于頻繁模式和機器學習雙推薦制的核定位信號預測算法。本發明公開了兩種模型,分別為基于頻繁模式的NLS預測算法構建的模型和基于機器學習的NLS預測算法構建的模型。其中,第一種模型主要是利用PrefixSpan算法思想,以此挖掘出在核序列數據庫中富集而在非核序列數據庫中稀疏的一些頻繁基序,對頻繁基序進行一定篩選與評價,得到候選NLS。第二種模型則主要是綜合以詞向量為特征的SVM,基于統計的線性分類,失調分數以及PSSM矩陣的單個蛋白質序列預測NLS算法,該算法的擊中率和冗余性得到了一定的改善。本發明不僅提高了NLS預測精度,更能發現一些不受已知NLS限制的特殊NLS。
技術領域
本發明涉及蛋白質生物學領域,具體地說,特別涉及到一種基于頻繁模式和機器學習雙推薦制的核定位信號預測算法。
背景技術
核定位信號是與載體蛋白結合的蛋白質肽,用于將核蛋白運輸到細胞核中,其作為核定位的重要信息。核定位序列NLS的鑒定可以幫助闡明蛋白質功能。然而,這種信號的實驗鑒定是昂貴的,目前只有有限數量的核定位序列NLS被確定。因此開發用于核定位序列NLS的計算預測的算法是重要的。
目前已經有了幾種NLS預測方法,如PSORT II,PredictNLS,NLStradamus, cNLSMapper,NucImport和seqNLS等。PSORT II根據序列模式預測NLSs,根據NLS的分類實現為三個簡單規則,該規則主要是堿性氨基酸K和R的聚簇以及聚類之間的空隙。PredictNLS則是基于194個潛在的NLS基序來預測NLS,這些基序是從114個實驗驗證的NLSs中用silico誘變方法得到的。NLStradamus 算法通過NLS傾向于具有與背景殘基不同的殘基頻率分布,使用簡單的二態或四態HMM來檢測NLS適應頻率變化。cNLS Mapper通過活性譜來計算肽鏈中每個殘基功能貢獻的總和來估計肽的經典NLS(cNLS)功能性。NucImport建立了一個貝葉斯網絡,通過結合與核輸入有關的各種屬性來預測核定位,如果蛋白質被預測為核蛋白質,則基于與貝葉斯網絡中的其他屬性的依賴關系,將其NLS 的位置預測為候選cNLS中具有最高cNLS評分的蛋白質中的區段。seqNLS則是通過挖掘已知NLS中的頻繁詞,將頻繁詞在查詢序列中按一定方式拼接為候選 NLS,然后基于線性基序評分。
雖然上述NLS預測方法都有一定的成果,但是仍存在各自的不足。例如: PSORT II假陽性較高,而且比對僅限cNLS;PredictNLS假陰性較高,使得一些新型NLS難以被發現;NLStradamus算法的性能取決于NLS具有一定殘差分布的假設,然而也有許多的NLS具有非常不同的殘基頻率;cNLS Mapper僅局限于 cNLS,且所用的NLS活性來源于酵母,對其他物種的篩選可能有一定的局限性; NucImport也是基于cNLS開發的,對其他NLS具有限制;seqNLS開發基礎不是從cNLS出發,也沒有局限于物種,有一定的先進性,結果對比于其他軟件,表現良好,但沒有突出,尤其是基于已知的NLS頻繁詞的預測,會忽略一些特殊的且不常見的NLS。
另外,核定位信號預測存在的最大問題是準確率和召回率的難以調解,由于現有已驗證的NLS數目有限且大多富有堿性氨基酸,使得基于機器學習的NLS 預測算法傾向于堿性氨基酸較高的NLS。使得只要有堿性氨基酸較多的片段,都很容易認為是NLS,造成冗余性過高,而且忽略一些其他類型的NLS,例如一些不含堿性氨基酸的NLS。
發明內容
本發明的目的在于針對現有技術中的不足,提供一種基于頻繁模式和機器學習雙推薦制的核定位信號預測算法,通過設立基于數據庫的頻繁模式挖掘和基于機器學習的雙推薦機制,首先利用數據挖掘知識得到一些在核數據庫中頻繁出現的基序,以此解決機器學習中傾向性問題,便于發現一些特殊的NLS。然后在基于機器學習建立的打分機制中,綜合利用進化信息(PSSM)、失調分數和序列特征信息(詞向量)以及統計信息(均值)強化一些篩選條件,以降低冗余性。最后綜合兩種模型,既能得到一些與已知NLS匹配度較高的NLS,又能發現一些在核序列富含的特殊NLS。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811523117.2/2.html,轉載請聲明來源鉆瓜專利網。





