[發明專利]一種文本生成方法、裝置、電子設備及存儲介質有效
| 申請號: | 202010865407.6 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN112163404B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 孫海峰;熊永平;尚學軍;戚艷;談元鵬 | 申請(專利權)人: | 北京郵電大學;國網天津市電力公司;國家電網有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/216;G06F40/247;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 王剛 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 生成 方法 裝置 電子設備 存儲 介質 | ||
本說明書一個或多個實施例提供一種基于關鍵詞生成文本的語言生成方法。本方法從關鍵詞生成文本包括以下步驟:收集句子并將句子進行分詞和關鍵詞提取,形成訓練語料;基于收集的語料數據,使用傳統的seq2seq模型進行訓練獲得由關鍵詞生成粗粒度文本的模型;對粗粒度文本進行改寫,改寫時首先將文本中遺漏的關鍵詞添加到文本中得到第一重構文本,然后通過插入操作或刪除操作對第一重構文本進行處理得到第二重構文本,并利用語言模型對第二重構文本評價是否合理通順;選擇語句最通順的第二重構文本作為與細粒度文本,從而保證生成的細粒度文本為最優文本,其中,生成的細粒度文本不僅文本流暢度高,而且表達內容精確。
技術領域
本說明書一個或多個實施例涉及自然語言生成方法技術領域,尤其涉及一種文本生成方法、裝置、電子設備及存儲介質。
背景技術
文本生成,也可以稱為文本自動生成,指計算機自動生成類似自然語言的文本。主流的方法要么依賴人工定義的模板、要么基于深度學習中神經翻譯模型實現。前者需要耗費大量的人力對模版進行定義,而后者往往不能對保證生成的結果質量,均無法在廣泛進行推廣。本發明旨在現有技術的基礎上,依據深度學習技術實現一種對生成內容質量有保障的通用技術,該技術不需要針對領域知識圖譜進行訓練,所生成的文本不僅考慮文本流暢度,同時考慮文本內容是否覆蓋所需表達的內容。
發明內容
有鑒于此,本說明書一個或多個實施例的目的在于提出一種文本生成方法,以解決文本生成內容不準確、文本不流暢的問題。
基于上述目的,本申請中一個或多個實施例提供了一種文本生成方法,包括:
獲取若干關鍵詞,將若干所述關鍵詞輸入預先訓練的粗粒度文本生成模型,得到若干所述關鍵詞對應的粗粒度文本;
確定未出現在粗粒度文本中的至少一個所述關鍵詞;
根據所述粗粒度文本和至少一個所述關鍵詞,得到若干第一重構文本;
對于每個所述第一重構文本均進行改寫處理,以得到若干第二重構文本;
對于每個所述第一重構文本均執行改寫處理,以得到若干第二重構文本;將若干所述第二重構文本輸入預先訓練的評估模型,得到若干所述第二重構文本分別對應的合理性數值,并將合理性數值最高的所述第二重構文本作為與所述遺漏關鍵詞對應的細粒度文本。
作為一種可選的實施方式,根據所述粗粒度文本和至少一個所述關鍵詞,得到若干第一重構文本,具體包括:
根據所述粗粒度文本,確定若干插入位置;
將至少一個所述遺漏關鍵詞分別插入每個所述插入位置,以得到若干所述第一重構文本。
作為一種可選的實施方式,將至少一個所述遺漏關鍵詞分別插入每個所述插入位置,以得到若干所述第一重構文本,具體包括:
將所述遺漏關鍵詞分別添加到所述粗粒度文本的所有位置,其中,所述遺漏關鍵詞的個數為M,所述粗粒度文本的長度為N;
所述將至少一個所述遺漏關鍵詞分別插入每個所述插入位置,以得到若干所述第一重構文本,具體包括:
將所述粗粒度文本的句首、句尾以及每兩個詞間的位置,確定為所述插入位置,以得到N+1個所述插入位置;
選擇一個所述遺漏關鍵詞分別添加到所有所述插入位置,得到N+1個添加結果;對于每個所述添加結果均執行確定所述插入位置,以及將另一所述遺漏關鍵詞分別添加到所有所述插入位置的步驟;
重復執行上述步驟,直至全部所述遺漏關鍵詞均添加到所述粗粒度句子中,并得到個第一重構文本。
作為一種可選的實施方式,對于每個所述第一重構文本均執行改寫處理,以得到若干所述第二重構文本,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學;國網天津市電力公司;國家電網有限公司,未經北京郵電大學;國網天津市電力公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010865407.6/2.html,轉載請聲明來源鉆瓜專利網。





