[發明專利]一種基于正負樣本對抗訓練的文本摘要生成方法在審
| 申請號: | 201910542798.5 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110347819A | 公開(公告)日: | 2019-10-18 |
| 發明(設計)人: | 向陽;邱俊 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 趙繼明 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對抗訓練 生成器 文本 判別器 摘要生成 正負樣本 負樣本 標簽 判別器訓練 判斷結果 人類語言 損失函數 網絡 生成式 收斂 原文 主旨 返回 更新 | ||
本發明涉及一種基于正負樣本對抗訓練的文本摘要生成方法,該方法包括以下步驟:(1)建立文本與摘要對組成的專家摘要庫;(2)建立一個由一個生成器和一個判別器組成的對抗訓練網絡;(3)負樣本的生成:將文本輸入生成器生成一批次摘要,其標簽為假摘要,作為負樣本使用。(4)判別器訓練:由生成器生成的當前批次假摘要,與標簽為真摘要的專家摘要一起用于訓練判別器;(5)生成器訓練:使用判別器返回的判斷結果計算生成器的損失函數和更新梯度,通過循環對抗訓練過程,直到整個對抗訓練網絡最終收斂,從而得到基于對抗訓練網絡的生成式文本摘要模型。與現有技術相比,本發明具有生成更符合人類語言規則、更能概括原文主旨的優勢。
技術領域
本發明涉及人工智能自然語言處理技術領域,尤其是涉及一種基于正負樣本對抗訓練的文本摘要生成方法。
背景技術
互聯網如今深刻地影響了人們的生活,越來越多的信息通過互聯網進行傳播,文本信息數據量也在指數級增長。但巨大的文字信息量增加了人們瀏覽查找的時間,降低了查找效率。從海量信息中準備高效獲取關鍵信息成為一個問題,文本摘要可以較好地解決這個問題。文本摘要是對文檔內容和主旨的精確概括。文本摘要技術是指對于給定的文本,機器能夠自動地生成能夠概括原文中心思想的摘要。而如何讓機器生成的文本摘要更符合人類語言規則、更能概括原文主旨是文本摘要領域待解決的重要問題之一。
文本摘要的技術主要是按實現方式分為抽取式文本摘要和生成式文本摘要兩種。抽取式自動文本摘要是只從原文中抽取關鍵的句子或詞語組成摘要,摘要中的文字均來自原文。其實現方式主要是基于統計信息、詞匯鏈和圖模型等方式。優點是沒有過多語法問題,比較通順。但缺點是要基于一些抽取模板和專家規則,擴展性很差且摘要過于冗長;如果原文中未有中心語句,則無法表達原文主旨。
生成式文本摘要是在理解原文語義和思想的基礎上,生成新的句子或詞語組成摘要,摘要中的某些文字可能不來自原文。其實現方式主要是基于深度學習的編碼器解碼器模型。優點是擴展性強,只要有對應語言的文本摘要對數據,就可以訓練模型;生成的摘要可以使用非原文詞,短小精悍。缺點是容易出現一些語法錯誤,語句有時不夠通順,即不符合人類語言規則。
現有的生成式文本摘要模型往往存在生成的摘要不符合人類語言規則、無法很好地概括原文主旨、學習摘要語言風格等問題。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于正負樣本對抗訓練的文本摘要生成方法。
本發明的目的可以通過以下技術方案來實現:
一種基于正負樣本對抗訓練的文本摘要生成方法,該方法包括以下步驟:
步驟1:根據需求建立相應風格的專家摘要庫;
步驟2:建立對抗訓練網絡,所述對抗訓練網絡包括由解碼器和編碼器組成的生成器和判別器;
步驟3:初始化對抗訓練網絡并將專家摘要庫中的文本輸入至對抗訓練網絡的生成器中以生成用于判別器訓練需要的第一批次假摘要負樣本;
步驟4:利用專家摘要庫和第一批次假摘要負樣本對對抗訓練網絡中的判別器進行基于有監督學習的分類訓練并根據判別器經訓練后返回的分類判別結果計算更新梯度;
步驟5:根據更新梯度更新生成器參數并再次將專家摘要庫中的文本輸入至經過參數更新的生成器中以生成第二批次假摘要負樣本,并返回步驟4再次與專家摘要庫配合并最終再次計算更新梯度;
步驟6:循環迭代執行步驟4和步驟5中各自的訓練直至生成器和判別器均收斂后訓練結束,并利用訓練結束后的生成器生成實際需求的文本摘要。
進一步地,所述的步驟4中的更新梯度的計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910542798.5/2.html,轉載請聲明來源鉆瓜專利網。





