[發明專利]一種基于功率譜的桑黃蛋白質區域預測閾值方法在審
| 申請號: | 201910021786.8 | 申請日: | 2019-01-10 |
| 公開(公告)號: | CN109859802A | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 管亞南;李忠偉 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G16B40/10 | 分類號: | G16B40/10 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 李宏偉 |
| 地址: | 266000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 桑黃 功率譜 蛋白質區域 頻譜 準確度 預測 低頻濾波器 核苷酸序列 多次迭代 基因序列 基因預測 降噪處理 生成基因 隨機序列 誤差影響 置信區間 閾值算法 閾值選取 傅里葉 采樣 截取 蛋白質 數據庫 保證 | ||
本發明提出了一種基于功率譜的桑黃蛋白質區域預測閾值方法,包括如下步驟:將從數據庫中獲取公開的桑黃及其同屬的蛋白質對應的n條核苷酸序列插入背景序列中生成基因序列;對此基因序列進行頻譜預測得到傅里葉功率譜;通過低頻濾波器對頻譜進行降噪處理;通過對頻譜值的對比,得到各段序列的當前最優閾值;對序列進行多次迭代采樣;計算置信區間得到最優閾值。基于功率譜的桑黃蛋白質區域預測閾值算法,保證了閾值選取的準確度,降低了隨機序列截取可能造成的誤差影響,提高了桑黃基因預測的準確度。
技術領域
本發明涉及基因的功率譜、基因預測和頻譜閾值領域,具體涉及到一種基于功率譜的桑黃蛋白質區域預測閾值方法。
背景技術
隨著現代基因測序技術的發展,面對海量增長的基因序列,如何從大量的基因數據中利用各種現有技術手段得到有用的信息是目前面臨的主要難題,因此數據挖掘技術研究和算法工具的開發越來越受到重視。而桑黃這種具有極高藥用價值的真菌,由于國外的技術封鎖,目前國內相關研究剛起步,因此在基因層面上的研究對于桑黃的成分合成的分子機制和實驗環境優化增產具有重要的意義。
我國桑黃人工培育技術才剛起步,目前,桑黃產黃酮的研究主要集中于生化方法的研究。隨著生物技術和計算機技術的發展,基于全基因組數據的基因挖掘研究日益增多。同時,數據挖掘理論技術的不斷發展以及各類數學模型的廣泛應用,為利用計算機技術進行數據分析,識別桑黃功能基因提供了良好的理論和技術基礎。
利用數據挖掘方法,從基因層面上入手,在桑黃全序列數據支持下,預測桑黃基因位點及序列并進一步得到影響桑黃產量的功能基因,再通過控制這些功能基因達到提高桑黃菌產量的目的也是一種新的研究方向。
桑黃基因預測是對桑黃基因表達數據分析處理,尋找潛在的桑黃基因表達區域。基于基因功率譜是基因預測的有效方法,以基因的功率譜特性為切入點,利用多種數據分析處理手段,可以將基因數據中的知識挖掘轉換成以計算機為輔助手段的信號處理。
在基于功率譜的桑黃蛋白質區域預測過程中,閾值是一個影響預測精度十分重要的因素,如,在實際的預測過程中,確定一段核苷酸序列為蛋白質編碼區還是非編碼區的重要指標就是頻譜閾值。傳統經驗閾值P=4,但是通過對公開數據庫中多種生物基因數據的仿真實驗,P=4并不適用于所有的生物。
發明內容
為找到最優閾值,提高桑黃基因預測的準確度,本發明提出來一種基于功率譜的桑黃蛋白質區域預測閾值方法。在方法中,對于桑黃這種菌類生物,首先從數據庫中選取公開蛋白質對應的核苷酸序列,將這些序列插入背景序列中作為樣本,對各段序列進行操作,若該段序列中存在某一值P使得該段序列中的查準精度大于0.8,則其為當前該段的預測閾值。最后從之前的序列中抽樣計算獲得最優閾值的置信區間,并通過獲取的置信區間計算區分桑黃蛋白質表達區域的最優閾值。
本發明的技術方案為:
步驟(1)、從數據庫中獲取公開的桑黃及其同屬的蛋白質對應的核苷酸序列n條插入背景序列中。在此,n≥10;
步驟(2)、在功率譜模塊對這n段核苷酸序列使用三周期頻譜預測,將基因序列映射成數字信號,經過離散傅里葉變換(DFT)等操作得到信號序列的傅里葉功率譜;
步驟(3)、頻譜數據降噪處理,通過低通濾波器對高頻信號進行過濾處理;
步驟(4)通過對頻譜值的對比,獲得具有預測該段核苷酸序列的最優閾值Pi(i=1,…,n)分布特性的集合;
步驟(5)、對新序列進行次數為T(T>1000)的重采樣,獲得新的無序采樣集Pj*(j=1,…,T),計算Pj*的平均值,獲得新的目標閾值θi,重復執行此操作,每次j=j+1,直至j>T;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910021786.8/2.html,轉載請聲明來源鉆瓜專利網。





