[發(fā)明專利]一種文本生成的方法及裝置在審
| 申請?zhí)枺?/td> | 202010038172.3 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111241789A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設計)人: | 陳瑞清;許開河;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06N3/04;G06N3/08;G06F16/332 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 生成 方法 裝置 | ||
本發(fā)明公開了一種文本生成的方法及裝置,涉及數據處理技術領域,為解決現有技術中根據已有模型生成的目標文本不準確的問題而發(fā)明。該方法主要包括:獲取初始文本數據;根據預置BERT語言模型,計算所述初始文本數據的變分自編碼器的隱藏空間參數;以所述初始文本數據、所述隱藏空間參數和初始控制條件為輸入數據,以在所述初始控制條件下與所述初始文本數據相對應的控制語句為輸出數據,采用時序性倒傳遞算法,修正訓練長短期記憶網絡LSTM解碼器的權重,以訓練所述LSTM解碼器;以待測語句和目標控制條件為所述LSTM解碼器的輸入數據,生成所述待測語句的目標語句。本發(fā)明主要應用于相似文本擴展的過程中。
技術領域
本發(fā)明涉及一種數據處理技術領域,特別是涉及一種文本生成的方法及裝置。
背景技術
生成文本是結構化過程中的文本,結構化表現出來的形式即現象文本,通常以可讀性和可控性判斷生成文本的質量。其中,可讀性是指生成文本具有符合人類自然語言規(guī)范的句子并且句子的意思清晰,可控性是指能夠根據事先設定的參數生成想要的目標句子能夠根據參數的調節(jié)來改變句子的語義。
現有的文本生成方案通常分成基于規(guī)則的文本生成和基于神經網絡的文本生成。基于規(guī)則的生成方式通常是通過人工指定一些規(guī)則通過同義詞替換、詞性分析等方法,這樣生成的文本可控性比較好但是可讀性比較差且擴展性弱,需要大量的人工特征工程。基于神經網絡的方式主要分為使用GAN和使用VAE的文本生成,由于文本是離散字符組成,因此是不可導的如果使用GAN常用的方法是使用強化學習來實現反向傳播但是這樣的問題是方差比較大影響效果,而另一種基于VAE的方法被認為在文本生成方面更友好。
VAE(Variational Auto-Encoder)和GAN(Ganerative Adversarial Networks)都是生成模型(Generative model)。所謂生成模型,即能生成樣本的模型。將訓練集中的數據點看作是某個隨機分布抽樣出來的樣本,比如:MNIST手寫體樣本,可以將每一幅圖像看作是隨機分布p(x)p(x)的抽樣。如果能夠得到類似的隨機模型,那么能夠無限制地生成樣本。但隨機分布p(x)p(x),需要通過對訓練集的學習來得到它,或者逼近它。要逼近一個隨機分布,其基本思想是:將一個已知的,可控的隨機分布q(z)q(z)映射到目標隨機分布p(x)p(x)上。變分自編碼器是深度學習領域中典型的生成模型,屬于Encoder-Decoder模型結構。
現有技術中,采用根據文本應用場景獲取文本語料,生成文本語料集,然后從文本語料中獲取對齊語料,將對齊語料作為seq2seq模型的訓練語料,對齊語料為表達內容相同但是標識不同情感的文本語料,再將訓練語料輸入seq2seq模型,以對seq2seq模型進行情感風格轉換訓練,再根據應用場景獲取目標文本,將目標文本輸入已訓練的seq2seq模型,得到相應情感風格的轉換語料。其中seq2seq模型是Encoder-Decoder模型結構。
現有技術中直接將應用場景獲取的文本語料獲取文本語料集做為訓練語料,在實際應用中訓練語料數據具有局限性,不能據此訓練出具有一般意義的seq2seq模型,導致在轉換情感風格時轉換語料不能準確反映應用場景下的方案,也就是根據已有模型生成的目標文本不準確,與應用場景實際對應的情感風格差距較大。
發(fā)明內容
有鑒于此,本發(fā)明提供一種文本生成的方法及裝置,主要目的在于解決現有技術中根據已有模型生成的目標文本不準確的問題。
依據本發(fā)明一個方面,提供了一種文本生成的方法,包括:
獲取初始文本數據;
根據預置BERT語言模型,計算所述初始文本數據的變分自編碼器的隱藏空間參數;
以所述初始文本數據、所述隱藏空間參數和初始控制條件為輸入數據,以在所述初始控制條件下與所述初始文本數據相對應的控制語句為輸出數據,采用時序性倒傳遞算法,修正訓練長短期記憶網絡LSTM解碼器的權重,以訓練所述LSTM解碼器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038172.3/2.html,轉載請聲明來源鉆瓜專利網。





