[發(fā)明專利]一種基于GloVe模型的氨基酸全局特征向量表示方法在審
| 申請?zhí)枺?/td> | 201910042979.1 | 申請日: | 2019-01-17 |
| 公開(公告)號: | CN109767814A | 公開(公告)日: | 2019-05-17 |
| 發(fā)明(設計)人: | 陳沾衡;尤著宏;李曉;蔣同海;周喜;袁揚;易海成;陳沾興;彭新亮 | 申請(專利權)人: | 中國科學院新疆理化技術研究所 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G06F17/27 |
| 代理公司: | 烏魯木齊中科新興專利事務所(普通合伙) 65106 | 代理人: | 張莉 |
| 地址: | 830011 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 氨基酸序列 特征向量 氨基酸 蛋白質 全局特征向量 模型訓練 生成模型 數據集中 詞向量 數值化 向量化 有效地 語料庫 預測 功耗 計算機 | ||
本發(fā)明公開了一種基于GloVe模型的氨基酸全局特征向量表示方法,該方法包括:輸入GloVe模型中語料庫的選擇與建立,氨基酸序列粒度切分處理,利用GloVe模型訓練得到每個氨基酸的特征向量步驟完成,該方法是利用GloVe詞向量生成模型處理每個氨基酸序列并得到特征向量,對氨基酸序列進行特征向量化的表示,方便計算機更好的對數據進行處理,并有助于進一步對蛋白質間的相互作用進行預測,最終所有數據集中的每個蛋白質都能夠得到300維的特征向量;該方法計算代價低,功耗小;有效地對氨基酸序列進行數值化的表示,為進一步蛋白質自相互作用預測奠定了堅實的基礎。
技術領域
本發(fā)明涉及自然語言處理和生物信息學領域,具體涉及一種基于GloVe模型的氨基酸全局特征向量表示方法。
背景技術
本發(fā)明涉及自然語言處理和生物信息學領域,具體涉及一種基于GloVe模型的氨基酸全局特征向量表示方法。蛋白質是生命活動的主要承擔者。許多研究人員對蛋白質的研究也不斷深入,但是傳統(tǒng)的生物學方法耗費人力、物力,造成了資源的巨大浪費。因此,如何對蛋白質進行數值化的表示,然后交由計算機進行處理,已經成為研究的熱點。近年來,隨著人工智能、機器學習、深度學習的不斷發(fā)展,自然語言處理領域也隨之發(fā)生了巨大的變化,許多技術得到了飛速的發(fā)展。將自然語言處理中的詞向量生成模型應用到生物學領域,對氨基酸序列進行特征向量化的表示,方便計算機進行處理,并有助于進一步對蛋白質間的相互作用進行預測。
發(fā)明內容
本發(fā)明的目的在于,提供一種基于GloVe模型的氨基酸全局特征向量表示方法,該方法包括:輸入GloVe模型中語料庫的選擇與建立,氨基酸序列粒度切分處理,利用GloVe模型訓練得到每個氨基酸的特征向量步驟完成,該方法是利用GloVe詞向量生成模型處理每個氨基酸序列并得到特征向量,對氨基酸序列進行特征向量化的表示,方便計算機更好的對數據進行處理,并有助于進一步對蛋白質間的相互作用進行預測,最終所有數據集中的每個蛋白質都能夠得到300維的特征向量;本發(fā)明所述方法計算代價低,功耗小,有效地對氨基酸序列進行數值化的表示,為進一步蛋白質自相互作用預測奠定了堅實的基礎。解決了計算機如何處理序列數據的問題。
本發(fā)明所述的一種基于GloVe模型的氨基酸全局特征向量表示方法,按下列步驟進行:
a、輸入GloVe模型中語料庫的選擇與建立:利用UniProt數據庫中的human和yeast兩個黃金標準數據集,構建用于輸入GloVe模型的語料庫,其中human數據集由1441個陽性自相互作用蛋白質和15938個陰性非自相互作用蛋白質組成,yeast數據集由710陽性樣本和5511個陰性樣本組成;
b、氨基酸序列粒度切分處理:將輸入GloVe模型語料庫中所有蛋白質按照單個氨基酸序列進行粒度切分,切分粒度為1個氨基酸;
c、特征向量表示:將步驟b中獲得的氨基酸序列粒度切分結果輸入到GloVe模型,利用GloVe模型訓練詞向量,得到human陽性數據集為1441×300,陰性數據集為15938×300,yeast陽性數據集為710×300,陰性數據集為5511×300的最終輸出結果為數值化的特征向量。
步驟b中將每一個蛋白質按照單個氨基酸序列進行粒度切分,便于計算每個氨基酸的詞向量。
本發(fā)明所述的一種基于GloVe模型的氨基酸全局特征向量表示方法,該方法
a、輸入GloVe模型中語料庫的選擇與建立:利用UniProt數據庫中的human和yeast兩個黃金標準數據集構建用于輸入GloVe模型的語料庫;其中human數據集由1441個陽性自相互作用蛋白質和15938個陰性非自相互作用蛋白質組成,yeast數據集由710陽性樣本和5511個陰性樣本組成;
b、氨基酸序列粒度切分處理:將輸入GloVe模型語料庫中所有蛋白質按照單個氨基酸序列進行粒度切分,切分粒度為1個氨基酸,便于計算每個氨基酸的詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院新疆理化技術研究所,未經中國科學院新疆理化技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910042979.1/2.html,轉載請聲明來源鉆瓜專利網。





