[發明專利]一種基于BERT預訓練模型的文本摘要生成方法有效
| 申請號: | 202110287084.1 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113128214B | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 文凱;周玲玉;楊航;王宗文 | 申請(專利權)人: | 重慶郵電大學;重慶信科設計有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 訓練 模型 文本 摘要 生成 方法 | ||
本發明請求保護一種基于BERT預訓練模型的文本摘要生成方法。該方法包括:將中文短本文數據集進行預處理;利用BERT雙向編碼特性能更好地獲取全局信息,將數據送入BERT預訓練模型中進行訓練;將實際需要獲得摘要的原文本輸入BERT預訓練模型,使用訓練好的參數進行訓練,獲得最佳詞向量;將得到的高質量字向量送入改進后的LeakGAN模型;文本在改進的LeakGAN中進行訓練,最終得到摘要輸出。本發明使生成器生成更加準確的摘要,提高了摘要的準確性和流暢性。
技術領域
本發明屬于自然語言處理文本生成領域,涉及一種基于BERT預訓練模型的摘要生成方法。
背景技術
隨著時代的進步及信息技術的發展,互聯網已經成為人類生活中越來越重要的社交、娛樂乃至工作平臺,是人們獲取各種知識資源的主要渠道。互聯網越來越成為人們生活必不可少的一部分,并且滲透到生活的方方面面。
然而,互聯網在為人類提供方便快捷服務的同時,也帶來了不可避免的信息過載問題。隨著信息數據量急劇增長,信息形式也呈現了多樣化的趨勢,主要包含文本、聲音、圖像等。作為互聯網最基本的信息形式,文本數據以其占用資源少、方便傳輸等優點,一直占據互聯網信息傳播的重要地位。各種領域各種形式的文本信息日益膨脹,使得人們在查閱文獻或資料時,即使在使用搜索引擎后,得到的也是過于龐大冗余的備選信息,需要付出大量的時間和精力去篩選。這給知識的獲取過程造成了巨大的障礙。如何將龐大冗余的文本數據以一種簡潔明了的方式呈現給用戶,從而幫助用戶快速有效的獲取到需要的信息成為了目前亟待解決的問題。
實現文本的自動摘要是解決此問題的一種有效途徑。它能自動從電子文本中提取出能夠涵蓋原始文本核心思想的重要內容,用濃縮的文摘表示原始冗長的文本而不丟失源文檔任何重要的含義和信息,為人們快速瀏覽信息、鎖定自己的興趣點提供了有效、快捷的方式。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種能夠改善文本摘要生成的準確度和流暢度的基于BERT預訓練模型的文本摘要生成方法。本發明的技術方案如下:
一種基于BERT預訓練模型的文本摘要生成方法,其包括以下步驟:
步驟一:對文本數據集進行去除特殊字符、動畫表情進行轉換、日期標簽替換、超鏈接URL、替換數字、英文標簽替換在內的預處理;
步驟二:對預處理后的數據進行BERT預訓練;
步驟三:將BERT預訓練得到的句向量轉化成詞向量;
步驟四:對LeakGAN模型進行優化,判別器中加入注意力機制,將詞向量輸入加入了注意力機制的LeakGAN模型進行訓練,生成摘要。
進一步的,所述步驟一對文本數據集進行去除特殊字符、日期標簽替換、超鏈接URL、替換數字、英文標簽替換在內的預處理,具體為:
(1)特殊字符:去除特殊字符,主要包括標點符號以及常用停用語氣詞和轉折詞,包括:“「,」,¥,…”啊阿哎而且;
(2)將括號里的標簽內容轉換成詞語,如【開心】,因為數據來源微博,會有很多動畫表情,以這種形式存在;
(3)日期標簽替換:將所有日期替換為TAG_DATE;
(4)超鏈接URL:替換為標簽TAG_URL;
(5)替換數字:TAG_NUMBER;
(6)英文標簽替換:替換英文單詞為標簽TAG_NAME_EN。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學;重慶信科設計有限公司,未經重慶郵電大學;重慶信科設計有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110287084.1/2.html,轉載請聲明來源鉆瓜專利網。





