[發(fā)明專利]一種實現(xiàn)快速篩選氨基酸序列的方法及裝置在審

申請?zhí)枺?/td>	202210278634.8	申請日：	2022-03-21
公開（公告）號：	CN114708913A	公開（公告）日：	2022-07-05
發(fā)明（設(shè)計）人：	李翛然;陳宇綜;易爽;馬東強	申請（專利權(quán)）人：	醫(yī)圖生科（蘇州）生命科學技術(shù)有限公司
主分類號：	G16B30/10	分類號：	G16B30/10;G16B40/00;G06K9/62
代理公司：	新余市渝星知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 36124	代理人：	廖平
地址：	215132 江蘇省蘇州市相城***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種實現(xiàn) 快速篩選氨基酸序列方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種實現(xiàn)快速篩選氨基酸序列的方法及裝置，其方法包括：將目標氨基酸序列L進行劃分處理，得到N個目標子氨基酸序列LN；通過對所述N個目標子氨基酸序列LN分別進行數(shù)字轉(zhuǎn)換處理，得到由數(shù)字構(gòu)成的N個獨熱向量氨基酸序列，并將所述N個獨熱向量氨基酸序列進行匯總處理，得到目標氨基酸序列矩陣M；利用所述目標氨基酸序列矩陣M，分別計算所述目標氨基酸序列L的組成、轉(zhuǎn)移、分布CTD和序列順序組合數(shù)SOCN；利用所述目標氨基酸序列L的CTD和SOCN，從預置的氨基酸序列庫中篩選出與所述目標氨基酸序列L特征相似的氨基酸序列。

技術(shù)領(lǐng)域

本發(fā)明涉及蛋白質(zhì)氨基酸技術(shù)領(lǐng)域，特別涉及一種實現(xiàn)快速篩選氨基酸序列的方法及裝置。

背景技術(shù)

基于序列的分析和預測是生物信息學的基本任務(wù)，這些預測和分析大大促進了對DNA、RNA和蛋白質(zhì)的序列結(jié)構(gòu)和功能的理解。序列的快速積累要求同樣普遍地開發(fā)新的預測模型，這取決于是否有支持這些努力的有效工具。在過去的幾十年里，高通量測序技術(shù)有了長足的進步和廣泛的應(yīng)用，產(chǎn)生了前所未有數(shù)量龐大的DNA、RNA和蛋白質(zhì)序列數(shù)據(jù)。隨著這些數(shù)據(jù)的快速積累，有效地分析、挖掘和可視化生物序列已成為一項復雜的任務(wù)。在各種計算解決方案中，機器學習方法是一種流行的、高效的生物序列準確功能預測/分析的解決方案。許多基于序列的機器學習方法已經(jīng)被提出，有助于更好地理解DNA、RNA和蛋白質(zhì)的功能和結(jié)構(gòu)，特別是在人類疾病方面。盡管用于序列分析和預測的機器學習框架多種多樣，但總的來說，它們在收集序列數(shù)據(jù)后遵循同樣的五個主要步驟：特征提取、特征分析、分類器構(gòu)建、性能評估和數(shù)據(jù)/結(jié)果可視化。但是，目前沒有針對大分子蛋白質(zhì)特征的計算以及蛋白質(zhì)氨基酸序列的計算效率比較低的問題。

發(fā)明內(nèi)容

根據(jù)本發(fā)明實施例提供的方案解決的技術(shù)問題是如何實現(xiàn)快速篩選氨基酸序列。

根據(jù)本發(fā)明實施例提供的一種實現(xiàn)快速篩選氨基酸序列的方法，包括：

將目標氨基酸序列L進行劃分處理，得到N個目標子氨基酸序列LN；

通過對所述N個目標子氨基酸序列LN分別進行數(shù)字轉(zhuǎn)換處理，得到由數(shù)字構(gòu)成的N個獨熱向量氨基酸序列，并將所述N個獨熱向量氨基酸序列進行匯總處理，得到目標氨基酸序列矩陣M；

利用所述目標氨基酸序列矩陣M，分別計算所述目標氨基酸序列L的組成、轉(zhuǎn)移、分布CTD和序列順序組合數(shù)SOCN；

利用所述目標氨基酸序列L的CTD和SOCN，從預置的氨基酸序列庫中篩選出與所述目標氨基酸序列L特征相似的氨基酸序列。

根據(jù)本發(fā)明實施例提供的一種實現(xiàn)快速篩選氨基酸序列的裝置，包括：

獲取模塊，用于將目標氨基酸序列L進行劃分處理，得到N個目標子氨基酸序列LN；通過對所述N個目標子氨基酸序列LN分別進行數(shù)字轉(zhuǎn)換處理，得到由數(shù)字構(gòu)成的N個獨熱向量氨基酸序列，并將所述N個獨熱向量氨基酸序列進行匯總處理，得到目標氨基酸序列矩陣M；

計算模塊，用于利用所述目標氨基酸序列矩陣M，分別計算所述目標氨基酸序列的組成、轉(zhuǎn)移、分布CTD和序列順序組合數(shù)SOCN；

篩選模塊，用于利用所述目標氨基酸序列的CTD和SOCN，從預置的氨基酸序列庫中篩選出與所述目標氨基酸序列L特征相似的氨基酸序列。

根據(jù)本發(fā)明實施例提供的方案，能夠快速比對蛋白質(zhì)氨基酸序列的差異，能夠加速從海量蛋白質(zhì)氨基酸序列中篩選出特征相似的氨基酸序列。

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進一步理解，構(gòu)成本發(fā)明的一部分，本發(fā)明的示意性實施例及其說明用于理解本發(fā)明，并不構(gòu)成對本發(fā)明的不當限定。在附圖中：

圖1是本發(fā)明實施例提供的一種實現(xiàn)快速篩選氨基酸序列的方法流程圖；

圖2是本發(fā)明實施例提供的一種實現(xiàn)快速篩選氨基酸序列的裝置示意圖。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于醫(yī)圖生科（蘇州）生命科學技術(shù)有限公司，未經(jīng)醫(yī)圖生科（蘇州）生命科學技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210278634.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：點擊率預測方法、系統(tǒng)、計算機及可讀存儲介質(zhì)
下一篇：殼多糖酶3樣蛋白1的測定試劑、試劑盒及定量方法

同類專利

專利分類

G 物理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】