[發(fā)明專利]一種基于自注意力機制的魯棒性代碼摘要生成方法有效
| 申請?zhí)枺?/td> | 201810306806.1 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108519890B | 公開(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計)人: | 彭敏;胡剛;袁夢霆;王清;曲金帥 | 申請(專利權(quán))人: | 武漢大學 |
| 主分類號: | G06F8/70 | 分類號: | G06F8/70;G06F8/72 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 注意力 機制 魯棒性 代碼 摘要 生成 方法 | ||
1.一種基于自注意力機制的魯棒性代碼摘要生成方法,其特征在于,包括以下步驟:
步驟1:編程社區(qū)高質(zhì)量的代碼及其描述語料對的抽?。?/p>
步驟1的具體實現(xiàn)包括以下子步驟:
步驟1.1:在編程社區(qū)中抽取噪聲語料對,所述噪聲語料對為(提問的描述文本,回復的代碼文本),并統(tǒng)計分析代碼及其描述文本的多種社交特征值及之間的相互關(guān)系,并構(gòu)建一個特征矩陣表示矩陣的維度,行向量是每條語料的特征值,列向量是每類特征值的分布;其中代碼部分的特征值維度為M,描述部分的特征值維度為N;
步驟1.2:構(gòu)建一個雙重小波時頻變換的特征融合框架;
首先對步驟1.1中的特征矩陣F在M+N維度上進行歸一化打分;接著分別將這M個和N個特征視為兩個不斷變換的L維信號,將信號轉(zhuǎn)換到時間-頻率空間中,則描述部分的矩陣中的M個信號被轉(zhuǎn)化為一系列小波樹{TTree1,....,TTreeM},代碼部分的矩陣中的N個信號被轉(zhuǎn)化為一系列小波樹{CTree1,....,CTreeN};最后將兩類小波樹中相同葉子節(jié)點的系數(shù)向量按列拼接成系數(shù)矩陣且P≤log2M+1;和且Q≤log2N+1;其中和分別表示矩陣的維度;
步驟1.3:利用最大期望EM算法分別估計步驟1.2中系統(tǒng)矩陣Ai和Bi的線性融合權(quán)重并重構(gòu)成新的信號ST和SC;
步驟1.4:利用最大期望EM算法二次估計兩個新信號ST和SC對信號融合的貢獻程度,并將融合后的信號進行小波逆變換得到一個基于時域的信號S,作為所有語料對在M+N個特征上的綜合打分;
步驟1.5:抽取打分值排名靠前的Top-K個數(shù)據(jù)對作為高質(zhì)量的代碼及其描述的語料對,所述數(shù)據(jù)對為(提問的描述文本,回復的代碼文本);
步驟2:代碼片段及其描述文本的語料對的冗余信息濾除;
步驟2的具體實現(xiàn)包括以下子步驟:
步驟2.1:收集人工標注的代碼的描述集,其中包括干凈的正樣本若干,不干凈的負樣本若干;
步驟2.2:在單樣本學習的孿生神經(jīng)網(wǎng)絡深度學習框架的基礎(chǔ)上,設(shè)計構(gòu)建一個去冗余的描述文本過濾算法T-SNNC,將步驟1中抽取的高質(zhì)量語料對通過T-SNNC算法去除其中存在冗余性描述的語料對;
步驟2.2中所述構(gòu)建一個去冗余的描述文本過濾算法T-SNNC,其中T-SNNC算法的框架中共享兩個相同的文本語義雙向LSTM編碼分別對描述文本x1和x2進行語義編碼,把描述文本的嵌入表示向量降維成向量sh和sl;將兩個向量的絕對差分作為線性分類器的輸入,經(jīng)過sigmoid激活函數(shù)獲得一個2維概率分布的向量p(x1,x2),即為預測值;
其中αj是學習的參數(shù),σ表示激活函數(shù);
采用式(2)的二分類交叉熵損失函數(shù)來訓練網(wǎng)絡,損失函數(shù)中加入L2權(quán)重損失項,讓網(wǎng)絡學習更小或更平滑的權(quán)重,從而提高模型的泛化能力;
其中L是損失函數(shù),||w||2為權(quán)重損失項,p(x1⊙x2)表示文本x1和x2是相同類別時,t=1;表示文本x1和x2是不同類別時,t=0;
收集人工打好標簽的描述文本語料若干,描述文本語料包括正樣本和負樣本,將新的配對語料逐對訓練以擬合T-SNNC網(wǎng)絡的參數(shù),新的配對語料包括正樣本和正樣本以及負樣本和負樣本組成的相同標簽的樣本集,其標簽為0;正樣本和負樣本組成的不同標簽的樣本集,其標簽為1;在預測過程中,將待測文本描述中同類比對樣本配對送入T-SNNC網(wǎng)絡中,當輸出標簽類別為0的個數(shù)大于1的個數(shù),則待測描述的標簽即跟比對樣本的標簽一致;若輸出標簽類別為0的個數(shù)小于1的個數(shù),則待測描述的標簽即跟比對樣本的標簽相反;
步驟3:將代碼對應的描述文本轉(zhuǎn)換成陳述性語句;
步驟4:基于自注意力機制序列模型的代碼摘要生成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學,未經(jīng)武漢大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810306806.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于校準移動魯棒性優(yōu)化函數(shù)的方法和設(shè)備
- 針對射程不確定性的質(zhì)子重離子調(diào)強放療魯棒優(yōu)化方法
- 基于備用整定的雙層魯棒機組組合方法
- 一種交直流混聯(lián)微網(wǎng)的隨機魯棒耦合型優(yōu)化調(diào)度方法
- 一種基于多路徑的魯棒性傳輸測評方法
- 一種基于分類不確定集的電力系統(tǒng)環(huán)境經(jīng)濟魯棒調(diào)度方法
- 一種基于參數(shù)范圍匹配的產(chǎn)品魯棒性分析方法
- 一種大規(guī)模染色陣列魯棒性驗證方法
- 一種Geiger型索穹頂結(jié)構(gòu)魯棒性優(yōu)化系統(tǒng)
- 一種射頻功率LDMOS器件封裝級魯棒性評估方法





