[發(fā)明專利]一種基于多任務(wù)學(xué)習(xí)的標(biāo)題生成方法在審
| 申請?zhí)枺?/td> | 202011258676.2 | 申請日: | 2020-11-11 |
| 公開(公告)號(hào): | CN112417149A | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設(shè)計(jì))人: | 劉博;胡志超 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 任務(wù) 學(xué)習(xí) 標(biāo)題 生成 方法 | ||
本發(fā)明提出一種基于多任務(wù)學(xué)習(xí)的標(biāo)題生成方法,首先獲取需要進(jìn)行標(biāo)題生成的源文本數(shù)據(jù),并且進(jìn)行清洗等預(yù)處理,將文章送入Self?Encoder端的BiLSTM模型進(jìn)行特征提取,之后再通過TextRank算法以及多任務(wù)學(xué)習(xí)模塊提取文章中的關(guān)鍵詞,再將關(guān)鍵詞送入Keywords?Encoder端進(jìn)行特征提取,然后將融合關(guān)鍵詞信息和源文本信息的特征送入由BiLSTM組成的Decoder端。該網(wǎng)絡(luò)更好的利用了原文中的關(guān)鍵詞信息來進(jìn)行標(biāo)題生成,極大的豐富了特征提取的信息,提高了生成標(biāo)題的質(zhì)量。
技術(shù)領(lǐng)域:
本發(fā)明屬于文本生成領(lǐng)域。尤其涉及到一些循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、 多任務(wù)學(xué)習(xí)等。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)在國內(nèi)的迅猛發(fā)展以及各種軟硬件的不斷更新升級(jí),使 得人們獲取信息的方式變得更加的多樣化,同時(shí)也由于獲取信息的成本越來 越小,導(dǎo)致每天獲取的信息總量也增加了很多。然而,信息化的迅速發(fā)展給 人們帶來便利的同時(shí),使得網(wǎng)絡(luò)中充斥著大量冗余、非結(jié)構(gòu)化的文本信息, 大大降低了人們獲取信息的效率。因此,如何通過機(jī)器來提取、精煉文本中 的關(guān)鍵有效信息,如何通過生成標(biāo)題來快速獲取文章的主題思想,已經(jīng)成為 當(dāng)今學(xué)術(shù)研究的熱點(diǎn)。國內(nèi)外已經(jīng)對(duì)這一研究領(lǐng)域已經(jīng)有較為成熟的理解和技術(shù)方法,且主要可分為兩種:首先是抽取式生成標(biāo)題(Extractive HeadlineGeneration,EHG)方法,這類方法主要是基于傳統(tǒng)的統(tǒng)計(jì)學(xué)知識(shí),強(qiáng)調(diào)文章的 表層含義,主要考察詞匯的頻率、句子的位置、句子的長度等信息。基于統(tǒng) 計(jì)的方法進(jìn)行摘要自動(dòng)提取的技術(shù)簡單、便捷、易于實(shí)現(xiàn),但是僅以文章的 表層詞匯信息難以刻畫句子的整體語義,不能很好的衡量句子的重要性;沒 有考慮句子的上下文信息,難以全局性的選出符合要求的句子;隨著神經(jīng)網(wǎng)絡(luò) 模型的不斷發(fā)展與完善,第二種方法被有些學(xué)者提出,即生成式生成標(biāo)題 (Abstractive Headline Generation,AHG)方法。這類方法可以很好的解決使 用EHG方法帶來的生成的標(biāo)題不能描述文章完整語義的問題。Soricut等人提 出一種生成生成式標(biāo)題的WIDL-expression,利用該表達(dá)式可以將相關(guān)的文本 信息轉(zhuǎn)換成一定結(jié)構(gòu)特征的標(biāo)題。隨后,序列到序列(Sequence to Sequence, Seq2Seq)模型越來越多的被運(yùn)用到文本生成的領(lǐng)域。2018年Hayashi等人將 摘要生成領(lǐng)域的Encoder-Decoder架構(gòu)利用到標(biāo)題生成任務(wù)上,其中Encoder 用來編碼源文本輸入,一個(gè)Decoder用來解碼,輸出目標(biāo)文本,但是由于此 種網(wǎng)絡(luò)結(jié)構(gòu)是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),所以存在并行度低,無法解決長期依 賴的問題。2019年由Gavrilov等人提出了Self-Attentive模型,在解決長 期依賴問題的同時(shí)進(jìn)行標(biāo)題生成。然而對(duì)于生成式標(biāo)題來說,得到的語義和 目標(biāo)標(biāo)題仍有一定差距,并且生成的標(biāo)題難以符合語義規(guī)則,標(biāo)題可讀性較 弱。
發(fā)明內(nèi)容
為解決傳統(tǒng)的生成式標(biāo)題生成方法從源文本中提取出的語義向量難 以將所有的關(guān)鍵信息準(zhǔn)確涵蓋的問題,本發(fā)明提出一種基于多任務(wù)學(xué)習(xí)模型 的標(biāo)題生成方法。
本發(fā)明的技術(shù)方案包括如下內(nèi)容:
首先對(duì)包含源文本和對(duì)應(yīng)參考標(biāo)題的數(shù)據(jù)集進(jìn)行句子清洗、去除空格 以及特殊字符,得到預(yù)處理結(jié)果;利用TextRank算法對(duì)預(yù)處理后的源文本進(jìn) 行詞的權(quán)重計(jì)算得到關(guān)鍵詞權(quán)重序列。然后構(gòu)建所需字典,key、value分別 表示詞和對(duì)應(yīng)的id。然后將需要處理的源文本根據(jù)字典轉(zhuǎn)換為相應(yīng)的id,并 且通過模型維度為m的Embedding層進(jìn)行詞向量初始化,然后根據(jù)id找到詞 對(duì)應(yīng)的詞向量。將詞向量送入模型的Encoder端,進(jìn)行特征提取,并且在提 取的過程中通過多任務(wù)學(xué)習(xí)訓(xùn)練關(guān)鍵詞分類器,通過關(guān)鍵詞抽取器生成源文 本的對(duì)應(yīng)關(guān)鍵詞權(quán)重序列。之后將源文本的特征向量與之前計(jì)算得到的關(guān)鍵 詞特征向量進(jìn)行融合,并將融合后的向量作為輸入輸入到采用雙向長短期記 憶神經(jīng)網(wǎng)絡(luò)(BidirctionLong Short-Term Memory,BiLSTM)模型的Decoder 端進(jìn)行標(biāo)題生成,這樣便得到了一個(gè)基于BiLSTM和多任務(wù)學(xué)習(xí)架構(gòu)的標(biāo)題生 成框架。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011258676.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)
- 基于人工智能的文章標(biāo)題生成方法、裝置、設(shè)備及介質(zhì)
- 一種相同新聞信息的歸類方法及系統(tǒng)
- 一種新聞主副標(biāo)題檢測方法及裝置
- 標(biāo)題識(shí)別方法及裝置
- 用于真產(chǎn)品詞識(shí)別的系統(tǒng)、方法和計(jì)算機(jī)可讀介質(zhì)
- 一種文檔系統(tǒng)的側(cè)邊欄展示方法及系統(tǒng)
- 一種文檔標(biāo)題層級(jí)的分析方法、裝置及服務(wù)器
- 一種文章標(biāo)題優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)標(biāo)識(shí)方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備





