[發明專利]一種基于GloVe模型的氨基酸全局特征向量表示方法在審
| 申請號: | 201910042979.1 | 申請日: | 2019-01-17 |
| 公開(公告)號: | CN109767814A | 公開(公告)日: | 2019-05-17 |
| 發明(設計)人: | 陳沾衡;尤著宏;李曉;蔣同海;周喜;袁揚;易海成;陳沾興;彭新亮 | 申請(專利權)人: | 中國科學院新疆理化技術研究所 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G06F17/27 |
| 代理公司: | 烏魯木齊中科新興專利事務所(普通合伙) 65106 | 代理人: | 張莉 |
| 地址: | 830011 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 氨基酸序列 特征向量 氨基酸 蛋白質 全局特征向量 模型訓練 生成模型 數據集中 詞向量 數值化 向量化 有效地 語料庫 預測 功耗 計算機 | ||
1.一種基于GloVe模型的氨基酸全局特征向量表示方法,其特征在于,按下列步驟進行:
a、輸入GloVe模型中語料庫的選擇與建立:利用UniProt數據庫中的human和yeast兩個黃金標準數據集,構建用于輸入GloVe模型的語料庫,其中human數據集由1441個陽性自相互作用蛋白質和15938個陰性非自相互作用蛋白質組成,yeast數據集由710陽性樣本和5511個陰性樣本組成;
b、氨基酸序列粒度切分處理:將輸入GloVe模型語料庫中所有蛋白質按照單個氨基酸序列進行粒度切分,切分粒度為1個氨基酸;
c、特征向量表示:將步驟b中獲得的氨基酸序列粒度切分結果輸入到GloVe模型,利用GloVe模型訓練詞向量,得到human陽性數據集為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院新疆理化技術研究所,未經中國科學院新疆理化技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910042979.1/1.html,轉載請聲明來源鉆瓜專利網。





