[發明專利]文本生成方法、裝置、電子裝置及可讀存儲介質有效
| 申請號: | 202111169724.5 | 申請日: | 2021-10-08 |
| 公開(公告)號: | CN113591442B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 薛小娜;黃艷香 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/279 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 蔡良偉;李曼 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 方法 裝置 電子 可讀 存儲 介質 | ||
本申請涉及一種文本生成方法、裝置、電子裝置及可讀存儲介質,所述方法包括步驟:獲取包含多個子數據的圖譜數據,并生成與各所述子數據對應的圖譜子文本;獲取各所述圖譜子文本在圖譜文本中的排列順序;根據所述排列順序以及各所述圖譜子文本生成與所述圖譜數據對應的所述圖譜文本。通過對各子數據進行排序,進而對由子數據得到的圖譜子文本進行排序,使得能夠保證由圖譜子文本生成的圖譜文本邏輯性以及連貫性。
技術領域
本申請涉及信息處理領域,尤其涉及一種文本生成方法、裝置、電子裝置及可讀存儲介質。
背景技術
現有技術中由圖譜知識生成文本的技術多通過將圖譜知識中的每個三元組轉化成子文本,最后將各子文本拼接起來作為圖譜知識對應的文本段,依此完成中文圖譜知識到文本的生成工作。但是,該方法中直接將各子文本拼接成一個文本段會帶來文本邏輯性、連貫性較差的問題。
發明內容
本申請提供了一種文本生成方法、裝置、電子裝置及可讀存儲介質,旨在解決現有技術中由圖譜知識生成的文本邏輯性、連貫性較差的技術問題。
為了解決上述技術問題或者至少部分地解決上述技術問題,本申請提供了一種文本生成方法,所述方法包括步驟:
獲取包含多個子數據的圖譜數據,并生成與各所述子數據對應的圖譜子文本;
獲取各所述圖譜子文本在圖譜文本中的排列順序;
根據所述排列順序以及各所述圖譜子文本生成與所述圖譜數據對應的所述圖譜文本。
可選地,
所述獲取各所述圖譜子文本對應的排列順序的步驟包括:
以兩個所述圖譜子文本為一組,對所有所述圖譜子文本進行組合得到多個圖譜子文本組合;
獲取訓練完成的語言模型,并將多個所述圖譜子文本組合依次輸入到所述訓練完成的語言模型中;
根據所述訓練完成的語言模型輸出的識別結果得到各所述圖譜子文本對應的排列順序。
可選地,所述獲取訓練完成的語言模型的步驟之前包括:
獲取訓練文本,并將所述訓練文本劃分為多個訓練子文本;
以兩個訓練子文本為一組,對所有所述訓練子文本進行組合,得到多個訓練子文本組合;
根據所述訓練子文本組合以及訓練子文本組合中對應的訓練子文本的相鄰關系生成訓練樣本;
通過所述訓練樣本對初始語言模型進行訓練,得到所述訓練完成的語言模型。
可選地,
所述根據所述訓練完成的語言模型輸出的識別結果得到各所述圖譜子文本對應的排列順序的步驟包括:
獲取所述識別結果中各所述圖譜子文本組合對應的相鄰概率;
對所有所述圖譜子文本進行全排列操作生成多條數據隊列,并獲取各所述數據隊列中相鄰的所述圖譜子文本對應圖譜子文本組合的相鄰概率;
計算各所述數據隊列中各相鄰的所述圖譜子文本對應圖譜子文本組合的相鄰概率之和;
將相鄰概率之和最大的數據隊列中圖譜子文本的排列順序作為各所述圖譜子文本對應的排列順序。
可選地,所述生成與各所述子數據對應的圖譜子文本的步驟包括:
針對每個子數據,獲取所述子數據中的連接詞的詞性標識;
匹配與所述詞性標識對應的文本模板;
將所述子數據中的元素詞對應填充至所述文本模板中生成所述子數據對應的圖譜子文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111169724.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于無線網絡的無線收發器屏蔽罩
- 下一篇:一種H型鋼用自動焊接機





