[發明專利]一種文本自動生成方法、系統、終端及存儲介質在審
| 申請號: | 202011556071.1 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112668315A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 鄧黎明;莊伯金;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/284;G06F40/289 |
| 代理公司: | 深圳國新南方知識產權代理有限公司 44374 | 代理人: | 張曾明 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 自動 生成 方法 系統 終端 存儲 介質 | ||
本發明公開了一種文本自動生成方法、系統、終端及存儲介質,所述方法包括:利用結構提取模型提取源文本中至少兩個粒度級別的結構信息;將所述至少兩個粒度級別的結構信息分別映射到嵌入式向量中,并將所有粒度級別的嵌入式向量相加,得到總的結構信息表征向量;根據所述總的結構信息表征向量控制生成與所述源文本結構一致的新文本。基于上述方案,本發明實現了不同粒度的結構信息控制生成,使得結構信息在對生成文本精確控制的同時,提高文本的生成質量。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種文本自動生成方法、系統、終端及存儲介質。
背景技術
文本生成是自然語言處理中的一個重要研究領域,具有廣闊的應用前景。國內外已經有諸如Automated Insights、Narrative Science以及“小南”機器人和“小明”機器人等文本生成系統投入使用,這些系統根據格式化數據或自然語言文本生成新聞、財報或者其他解釋性文本。然而,現有的文本生成大部分都是自由式生成,即對生成文本缺乏較為明確的控制,難以滿足工業應用領域的需求。為了改善現有文本生成方式的不足,催生了對文本某些屬性的控制生成方式,例如情感屬性、風格屬性和偏好屬性等,然而現有的文本屬性控制大部分都屬于內容的控制,而缺乏對文本結構的控制。
發明內容
本發明提供了一種文本自動生成方法、系統、終端及存儲介質,能夠在一定程度上解決現有技術中存在的不足。
為解決上述技術問題,本發明采用的技術方案為:
一種文本自動生成方法,包括:
利用結構提取模型提取源文本中至少兩個粒度級別的結構信息;
將所述至少兩個粒度級別的結構信息分別映射到嵌入式向量中,并將所有粒度級別的嵌入式向量相加,得到總的結構信息表征向量;
根據所述總的結構信息表征向量控制生成與所述源文本結構一致的新文本。
本發明實施例采取的技術方案還包括:
所述至少兩個粒度級別的結構信息包括詞粒度級別的結構信息和字符粒度級別的結構信息;
所述詞粒度級別的結構信息由所述源文本中每個詞的詞性組成;
所述字符粒度級別的結構信息由分詞信息組成,所述分詞信息為每一個字符在詞中的位置信息。
本發明實施例采取的技術方案還包括:所述利用結構提取模型提取源文本中至少兩個粒度級別的結構信息之后還包括:
對所述源文本中各個粒度級別的結構信息分別進行詞性標注,得到各個粒度級別的結構信息的詞性標注序列,使得所述各個粒度級別的結構信息的詞性標注序列長度與對應粒度的文本長度對齊。
本發明實施例采取的技術方案還包括:所述使得所述各個粒度級別的結構信息的詞性標注序列長度與對應粒度的文本長度對齊包括:
對所述源文本中的每個詞進行詞性標注,得到詞粒度級別的結構信息的詞性標注序列,使得所述詞粒度級別的結構信息的詞性標注序列長度與詞粒度級別的文本長度對齊;
分別對所述每個詞中的每個字符進行詞性標注,得到所述字符粒度級別的結構信息的詞性標注序列,使得所述字符粒度級別的結構信息的詞性標注序列長度與字符粒度級別的文本長度對齊;
所述每個詞中的每個字符的詞性標注與對應詞的詞性標注一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011556071.1/2.html,轉載請聲明來源鉆瓜專利網。





