[發(fā)明專利]一種基于深度學(xué)習(xí)進(jìn)行JavaScript類型推斷的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201911020317.0 | 申請(qǐng)日: | 2019-10-25 |
| 公開(公告)號(hào): | CN110780878A | 公開(公告)日: | 2020-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 孫建華;劉利娜;陳浩 | 申請(qǐng)(專利權(quán))人: | 湖南大學(xué) |
| 主分類號(hào): | G06F8/41 | 分類號(hào): | G06F8/41;G06F11/36;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410082 湖南省*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 源代碼 準(zhǔn)確度 推斷 神經(jīng)網(wǎng)絡(luò) 構(gòu)建 標(biāo)識(shí)符 神經(jīng)元 人工智能領(lǐng)域 源代碼表示 分類誤差 結(jié)果標(biāo)注 模型參數(shù) 模型評(píng)估 數(shù)據(jù)格式 數(shù)據(jù)轉(zhuǎn)換 損失函數(shù) 統(tǒng)計(jì)模型 形式輸出 對(duì)齊 詞匯庫 數(shù)據(jù)集 映射 加載 向量 學(xué)習(xí) 單詞 匹配 篩選 跟蹤 評(píng)估 更新 | ||
1.一種采用深度學(xué)習(xí)技術(shù)進(jìn)行JavaScript類型推斷的方法,其步驟如下:
(1)數(shù)據(jù)。包括數(shù)據(jù)的篩選、轉(zhuǎn)換、切分、表示,最終作為模型的輸入;
(2)模型。包括神經(jīng)網(wǎng)絡(luò)組成、及其超參數(shù)的初始化等;
(3)訓(xùn)練。跟蹤模型的損失函數(shù)等,確定神經(jīng)網(wǎng)絡(luò)種類,網(wǎng)絡(luò)層數(shù)、超參數(shù)等因素對(duì)模型精確度的影響,從而不斷調(diào)整模型參數(shù),進(jìn)而不斷提高模型準(zhǔn)確度;
(4)類型推斷。將源代碼文件作為模型的輸入,加載訓(xùn)練好的模型中準(zhǔn)確度較高的模型,針對(duì)輸入中每一個(gè)標(biāo)識(shí)符進(jìn)行類型推斷,并將推斷的類型信息標(biāo)注在其標(biāo)識(shí)符的后面。
2.根據(jù)權(quán)利要求1所述的該系統(tǒng)所需的數(shù)據(jù),需要進(jìn)行以下變換,以符合模型的的輸入,其特征在于:
(1)篩選類型豐富且各種類型的數(shù)目保持均衡的源代碼;
(2)利用類型檢查器,得到源代碼中標(biāo)識(shí)符的類型信息,利用分詞器將源代碼及其類型信息轉(zhuǎn)換為TXT文本數(shù)據(jù),同時(shí)構(gòu)建大小合適的詞匯表;
(3)根據(jù)實(shí)驗(yàn)機(jī)器配置,設(shè)置合適大小及比例的訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)、測試數(shù)據(jù);
(4)將TXT文本數(shù)據(jù)表示為深度學(xué)習(xí)庫CNTK兼容的CTF格式數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的針對(duì)源代碼的模型,其具有以下特征:
(1)傳統(tǒng)的自然語言處理模型不適合源代碼任務(wù),本發(fā)明采用深度神經(jīng)網(wǎng)絡(luò),將神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的自然語言處理模型結(jié)合,捕獲更多的代碼特征;
(2)結(jié)合數(shù)據(jù)集大小,選取合適的神經(jīng)網(wǎng)絡(luò)層數(shù)及每個(gè)隱藏層包含的神經(jīng)元個(gè)數(shù)等;
(3)結(jié)合任務(wù)類型,設(shè)置合理的初始神經(jīng)網(wǎng)絡(luò)參數(shù)。如激活函數(shù),損失函數(shù),學(xué)習(xí)器等的設(shè)置。對(duì)于分類任務(wù),輸出層一般選擇softmax()函數(shù)對(duì)輸出結(jié)果進(jìn)行處理,且學(xué)習(xí)率一般要隨著訓(xùn)練進(jìn)行衰減,因此可使用自適應(yīng)梯度的辦法,如使用adadelta學(xué)習(xí)器,可自動(dòng)調(diào)整學(xué)習(xí)率等。
4.根據(jù)權(quán)利要求1或3所述的針對(duì)模型的訓(xùn)練,主要特征包括:
(1)跟蹤損失函數(shù)值,訓(xùn)練集和驗(yàn)證集準(zhǔn)確率,進(jìn)而不斷的調(diào)整模型參數(shù),優(yōu)化模型的性能;
(2)采用單一神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型;
(3)結(jié)合多種神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型;
(4)針對(duì)以上兩種模型,改變其超參數(shù),觀察其中每個(gè)超參數(shù)對(duì)最終結(jié)果的影響,綜合各種影響,獲取準(zhǔn)確度較高的模型。
5.根據(jù)權(quán)利要求1所述的類型推斷,其特征如下:
(1)將源文件作為輸入?yún)?shù),利用分詞工具,提取其中的每一個(gè)標(biāo)識(shí)符;
(2)加載訓(xùn)練好的準(zhǔn)確度較高的模型,針對(duì)每一個(gè)標(biāo)識(shí)符,將隱藏層中的隱藏狀態(tài)映射到與類型詞匯庫相同維度的向量上,然后使用softmax()函數(shù)對(duì)輸出結(jié)果進(jìn)行處理,將其規(guī)范為有效的類型分類概率分布;
(3)將每個(gè)標(biāo)識(shí)符的類型推斷結(jié)果標(biāo)注在其對(duì)應(yīng)標(biāo)識(shí)符的后面。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué),未經(jīng)湖南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911020317.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





