[發(fā)明專利]一種基于BERT預訓練模型的文本摘要生成方法有效
| 申請?zhí)枺?/td> | 202110287084.1 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113128214B | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設計)人: | 文凱;周玲玉;楊航;王宗文 | 申請(專利權(quán))人: | 重慶郵電大學;重慶信科設計有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 訓練 模型 文本 摘要 生成 方法 | ||
1.一種基于BERT預訓練模型的文本摘要生成方法,其特征在于,包括以下步驟:
步驟一:對文本數(shù)據(jù)集進行去除特殊字符、動畫表情進行轉(zhuǎn)換、日期標簽替換、超鏈接URL、替換數(shù)字、英文標簽替換在內(nèi)的預處理;
步驟二:對預處理后的數(shù)據(jù)進行BERT預訓練;
步驟三:將BERT預訓練得到的句向量轉(zhuǎn)化成詞向量;
步驟四:對LeakGAN模型進行優(yōu)化,判別器中加入注意力機制,將詞向量輸入加入了注意力機制的LeakGAN模型進行訓練,生成摘要;
判別器的訓練過程是有監(jiān)督的訓練,通過對生成器Gθ采樣獲得生成數(shù)據(jù)集SG,真實數(shù)據(jù)集為S,將生成數(shù)據(jù)和真實數(shù)據(jù)標簽化后,訓練判別器;
訓練的目標函數(shù)如下:
其中,表示的是輸入序列是真標簽的概率值,在固定判別器訓練生成器的時候,要求真實數(shù)據(jù)輸出的概率盡可能的接近1,生成數(shù)據(jù)輸出的概率盡可能接近0;
在生成器的訓練中,判別器的行為有:
sigmoid(z)=(1/1+e-z),是判別器的特征提取層輸出的高維特征向量,s是生成序列;
當生成器準備生成下一個詞的時候,生成器會把當前生成的部分序列,使用蒙特卡洛樹搜索補充為完整的輸入序列s,傳遞給判別器,幫助Manager模塊獲得指導下一個詞生成的高維特征向量;
判別器獲得輸入序列s后,在經(jīng)過特征提取層后,得到高維特征向量,然后,判別器不僅把高維特征向量傳遞到下一步的分類層,還將高維特征向量反饋給生成器的Manager模塊用來指導文本生成;
之后當高維特征向量傳遞到分類層后,還會向生成器反饋一個獎勵值標量,表明當初生成詞的好壞,用來生成器的參數(shù)優(yōu)化:
yt表示當前生成的序列,Y1:t-1表示之前生成的序列,MCG(Y1:T;N)表示把當前生成的部分序列使用蒙特卡洛樹搜索補充成完整的文本序列;
使用全零的隱藏狀態(tài)初始化Manager模塊和Worker模塊的和接下來的每一時間步,Manager模塊結(jié)合當前的隱藏狀態(tài)和判別器傳遞的特征向量ft輸出目標向量gt:
GM(·)表示模塊的LSTM網(wǎng)絡結(jié)構(gòu),hM表示Manager模塊LSTM網(wǎng)絡的每個時間步的隱藏狀態(tài),θM表示Manager模塊LSTM網(wǎng)絡的相關參數(shù),at表示Manager模塊LSTM網(wǎng)絡的每個時間步的輸出;
對Manager模塊輸出的目標向量做線性變換操作,于是對最近輸出的n個目標向量gt先進行和操作,然后使用權(quán)重矩陣Wc做線性變換,最后輸出k維的目標嵌入向量vt:
Manager模塊輸出的目標嵌入向量vt傳遞給Worker模塊,并與Worker模塊LSTM網(wǎng)絡的輸出向量Ot做點乘操作,然后把點乘的結(jié)果輸入到softmax函數(shù)進行歸一化操作,輸出一個字典大小的分布;
Gθ(·|St)=softmax(Ot·vt) (9)
GW(·)表示W(wǎng)orker模塊的LSTM網(wǎng)絡結(jié)構(gòu),xt代表當前的詞,hW表示W(wǎng)orker模塊LSTM網(wǎng)絡的隱藏狀態(tài),θW代表Worker模塊LSTM網(wǎng)絡的相關參數(shù),Ot表示W(wǎng)orker模塊LSTM網(wǎng)絡的輸出向量,大小為|V|×k的矩陣,St表示當前生成的部分序列;
生成器繼續(xù)通過蒙特卡洛樹搜索將當前生成的部分序列補充完整,傳遞給判別器對當前生成的單詞進行評分同時也會得到指導接下來生成過程的高維特征向量,進行下一個詞的生成。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學;重慶信科設計有限公司,未經(jīng)重慶郵電大學;重慶信科設計有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110287084.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓練方法、裝置和計算機設備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設備
- 基于BERT-BTM網(wǎng)絡的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設備
- 基于卷積神經(jīng)網(wǎng)絡的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





