[發(fā)明專利]一種融合主題的PGN-GAN文本摘要模型在審
| 申請(qǐng)?zhí)枺?/td> | 202110646495.5 | 申請(qǐng)日: | 2021-06-10 |
| 公開(公告)號(hào): | CN113360601A | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計(jì))人: | 郭繼峰;費(fèi)禹瀟;呂帥;孫文博 | 申請(qǐng)(專利權(quán))人: | 東北林業(yè)大學(xué) |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/34;G06F40/242;G06N3/08 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 150040 黑龍*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 主題 pgn gan 文本 摘要 模型 | ||
本發(fā)明涉及一種融合主題的PGN?GAN摘要生成方法,為了能夠生成更加貼近主題信息和源文本的摘要,本發(fā)明在指針生成網(wǎng)絡(luò)的基礎(chǔ)上嘗試融入了LDA主題模型,并將主題信息融入到結(jié)合指針網(wǎng)絡(luò)和GAN的序列到序列模型中,該模型將利用主題來(lái)模擬人類的先驗(yàn)知識(shí),從而使摘要更多的結(jié)合主題生成,在獲得主題詞向量后與上下文共同合成新向量來(lái)影響文本的生成。本發(fā)明提出的加入了生成對(duì)抗網(wǎng)絡(luò)的指針生成網(wǎng)絡(luò)模型結(jié)果較其他生成的摘要更加通順,同時(shí)因?yàn)橹黝}信息的引入,更加貼近原文的含義。
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,尤其涉及一種融合主題的PGN-GAN摘要生成方法。
背景技術(shù):
隨著近年來(lái)互聯(lián)網(wǎng)文本信息的爆發(fā)式增長(zhǎng),極大的增加了閱讀的困難,從繁雜的文本中提取有用的信息變得越顯得格外重要,因此如何高效準(zhǔn)確的從中提取信息組成摘要成為了目前互聯(lián)網(wǎng)行業(yè)的迫切需求。
在先前的工作中,有研究人員利用隱迪利克雷(LDA)方法生成文檔主題模型以提取文檔集或語(yǔ)料庫(kù)的潛在主題信息,隨著LDA技術(shù)的不斷成熟,主題模型除了用在分類預(yù)測(cè)的方面也更多的應(yīng)用在文本摘要方面的工作。
現(xiàn)階段文本摘要技術(shù)大致分為兩類,抽取式摘要與生成式摘要,抽取式摘要技術(shù)一般依靠詞頻、統(tǒng)計(jì)等抽取原文的詞語(yǔ)或句子,生成式摘要技術(shù)一般需要利用神經(jīng)網(wǎng)絡(luò)從中提取文本的特征再通過語(yǔ)料生成所需的摘要,但目前常用的基準(zhǔn)序列到序列模型仍然具有事實(shí)偏差、不夠還原等問題。目前解決以上問題的主流思想是指針生成網(wǎng)絡(luò)。
隨著生成對(duì)抗網(wǎng)絡(luò)在圖像領(lǐng)域的廣泛應(yīng)用,GAN也被嘗試應(yīng)用在了文本生成中。本文使用生成器G來(lái)生成文本,并利用鑒別器D作為文本的分類器,D 的主要作用是鑒別文本是由機(jī)器生成還是人為生成。G和D的對(duì)抗學(xué)習(xí)最終可以協(xié)助傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)生成更高質(zhì)量的文本。
為了能夠生成更加貼近主題信息和源文本的摘要,本發(fā)明在指針生成網(wǎng)絡(luò)的基礎(chǔ)上嘗試融入了LDA主題模型,并將主題信息融入到結(jié)合GAN的序列到序列模型中,該模型將利用主題來(lái)模擬人類的先驗(yàn)知識(shí),從而使摘要更多的結(jié)合主題生成,在獲得主題詞向量后與上下文共同合成新向量來(lái)影響文本的生成。
本發(fā)明提出的加入了生成對(duì)抗網(wǎng)絡(luò)的指針生成網(wǎng)絡(luò)模型結(jié)果較其他生成的摘要更加通順,同時(shí)因?yàn)橹黝}信息的引入,更加貼近原文的含義。
發(fā)明內(nèi)容:
本發(fā)明的目的是克服現(xiàn)有方法的不足,提出一種結(jié)合指針網(wǎng)絡(luò)同生成對(duì)抗網(wǎng)絡(luò)的摘要生成方法,特別是涉及一種融合主題信息的摘要生成方法,以彌補(bǔ)摘要生成中主題信息確實(shí)的問題。
1.一種融合主題的PGN-GAN文本摘要模型,其特征在于,包括如下步驟:
步驟1:給定文本集合中的每篇文檔,利用隱狄利克雷模型得到主題詞和主題文檔分布。
步驟2:在主題分布中選取前k個(gè)作為主題詞,得到主題詞向量。
步驟3:將普通編碼器的最終隱藏層狀態(tài)作為主題注意力層的輸入,形成復(fù)合注意力。
步驟4:生成器將源文本和主題詞作為輸入,在經(jīng)過帶有復(fù)合注意力機(jī)制的編碼器后將x轉(zhuǎn)變?yōu)殡[藏狀態(tài),搭建指針生成網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò),鑒別器用來(lái)區(qū)分文本是機(jī)器生成的還是真實(shí)樣本。
步驟5:將輸出向量傳入解碼器,通過解碼器得到最終生成的文本。
2.根據(jù)權(quán)利要求1所述的一種融合主題的PGN-GAN文本摘要模型,其特征在于,所述步驟1包括如下步驟:
步驟1.1:給定文本集合中的每篇文檔,生成一個(gè)隱迪利克雷分布模型,得到θm作為主題——文檔分布
步驟1.2:每個(gè)主題t,依據(jù)以β為參數(shù)的狄利克雷分布得到分布即主題詞分布。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北林業(yè)大學(xué),未經(jīng)東北林業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110646495.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 肽聚糖的生物學(xué)測(cè)定
- 多孔石墨烯網(wǎng)電極以及含有其的全碳鋰離子電池
- 用于預(yù)防或治療金黃色葡萄球菌感染的組合物
- 產(chǎn)丙酮酸棒狀桿菌肽聚糖、提取及抗感染應(yīng)用
- 一種鉛離子敏感型全細(xì)胞生物傳感器的構(gòu)建方法
- 一種模塊化的CAN網(wǎng)絡(luò)負(fù)載率優(yōu)化方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種含Diels-Alder鍵的PGN基熱塑性聚氨酯彈性體及一鍋法制備方法
- 一種熱可逆共價(jià)交聯(lián)PGN基彈性體及其制備方法
- 移動(dòng)通信系統(tǒng)和移動(dòng)通信終端





