[發明專利]一種基于GloVe模型的氨基酸全局特征向量表示方法在審

申請號：	201910042979.1	申請日：	2019-01-17
公開（公告）號：	CN109767814A	公開（公告）日：	2019-05-17
發明（設計）人：	陳沾衡;尤著宏;李曉;蔣同海;周喜;袁揚;易海成;陳沾興;彭新亮	申請（專利權）人：	中國科學院新疆理化技術研究所
主分類號：	G16B30/00	分類號：	G16B30/00;G16B40/00;G06F17/27
代理公司：	烏魯木齊中科新興專利事務所(普通合伙) 65106	代理人：	張莉
地址：	830011 新疆維吾爾***	國省代碼：	新疆;65
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	氨基酸序列特征向量氨基酸蛋白質全局特征向量模型訓練生成模型數據集中詞向量數值化向量化有效地語料庫預測功耗計算機
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于GloVe模型的氨基酸全局特征向量表示方法，其特征在于，按下列步驟進行：

a、輸入GloVe模型中語料庫的選擇與建立：利用UniProt數據庫中的human和yeast兩個黃金標準數據集，構建用于輸入GloVe模型的語料庫，其中human數據集由1441個陽性自相互作用蛋白質和15938個陰性非自相互作用蛋白質組成，yeast數據集由710陽性樣本和5511個陰性樣本組成；

b、氨基酸序列粒度切分處理：將輸入GloVe模型語料庫中所有蛋白質按照單個氨基酸序列進行粒度切分，切分粒度為1個氨基酸；

c、特征向量表示：將步驟b中獲得的氨基酸序列粒度切分結果輸入到GloVe模型，利用GloVe模型訓練詞向量，得到human陽性數據集為1441×300，陰性數據集為15938×300，yeast陽性數據集為710×300，陰性數據集為5511×300的最終輸出結果為數值化的特征向量。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院新疆理化技術研究所，未經中國科學院新疆理化技術研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910042979.1/1.html，轉載請聲明來源鉆瓜專利網。