[發明專利]文本生成方法、裝置、電子設備和計算機可讀介質有效
| 申請號: | 202010413938.1 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111581916B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 施文嫻;周浩;李磊 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/216;G06F16/35 |
| 代理公司: | 北京唯智勤實知識產權代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 方法 裝置 電子設備 計算機 可讀 介質 | ||
本公開的實施例公開了文本生成方法、裝置、電子設備和計算機可讀介質。該方法的一具體實施方式包括:獲取源文本;將源文本輸入變分自編碼器,得到目標文本,其中,變分自編碼器以混合指數分布作為先驗,變分自編碼器在訓練過程中所使用的損失函數包括分散項,分散項用于調整混合組分的分散趨勢,混合組分是混合指數分布對應的多個指數分布。該實施方式實現了減輕模式塌縮、增強可解釋性,并且對于目標文本的質量的提升有顯著的效果。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及文本生成方法、裝置、電子設備和計算機可讀介質。
背景技術
變分自編碼器(VAE,Variational auto-encoder)由于其自身特性被廣泛應用于文本生成、圖像生成等等領域。但是,變分訓練中往往存在模式塌縮的問題。舉例來說,在語言生成任務中,多個高斯先驗在訓練中趨于崩潰,最終反生成為一個高斯先驗。如圖1所示,預約“remind me about my meeting.”和詢問天氣“will it be humid in**today?”被映射到同一個模式。此外,在圖像建模任務中也觀察到模式塌縮的問題。
發明內容
本公開的內容部分用于以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。本公開的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
本公開的一些實施例提出了文本生成方法、裝置、電子設備和計算機可讀介質,來解決以上背景技術部分提到的技術問題。
第一方面,本公開的一些實施例提供了一種文本生成方法,包括獲取源文本;將源文本輸入變分自編碼器,得到目標文本,其中,變分自編碼器以混合指數分布作為先驗,變分自編碼器在訓練過程中所使用的損失函數包括分散項,分散項用于調整混合組分的分散趨勢,混合組分是混合指數分布對應的多個指數分布。
第二方面,本公開的一些實施例提供了一種文本生成裝置,包括:獲取單元,被配置成獲取源文本;生成單元,被配置成將源文本輸入變分自編碼器,得到目標文本,其中,變分自編碼器以混合指數分布作為先驗,變分自編碼器在訓練過程中所使用的損失函數包括分散項,分散項用于調整混合組分的分散趨勢,混合組分是混合指數分布對應的多個指數分布。
第三方面,本公開的一些實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個程序,當一個或多個程序被一個或多個處理器執行,使得一個或多個處理器實現上述任一的方法。
第四方面,本公開的一些實施例提供了一種計算機可讀介質,其上存儲有計算機程序,其中,程序被處理器執行時實現上述任一的方法。
本公開的上述各個實施例中的一個實施例具有如下有益效果:通過將源文本輸入變分自編碼器,得到目標文本。其中,由于變分自編碼器在訓練過程中所使用的損失函數包括分散項,從而減輕了模式塌縮,并誘導出一個結構化的隱空間。由于結構化的隱空間兼具了離散和連續隱空間的優點,從而在保證模型容量的同時,增強了可解釋性。作為示例,在會話生成的場景下,隱變量可以模擬動作或者意圖。此外,對于目標文本的質量的提升有顯著的效果。
附圖說明
結合附圖并參考以下具體實施方式,本公開各實施例的上述和其他特征、優點及方面將變得更加明顯。貫穿附圖中,相同或相似的附圖標記表示相同或相似的元素。應當理解附圖是示意性的,原件和元素不一定按照比例繪制。
圖1是變分訓練中不同類型的語句被映射到同一個模式的可視化效果圖;
圖2是根據本公開的一些實施例的文本生成方法的一個應用場景的示意圖;
圖3是根據本公開的文本生成方法的一些實施例的流程圖;
圖4是根據本公開的文本生成方法的另一些實施例的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010413938.1/2.html,轉載請聲明來源鉆瓜專利網。





