[發明專利]基于圖譜的文本生成方法、系統、電子設備及存儲介質在審
| 申請號: | 202011417808.1 | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112559761A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 薛小娜;黃艷香 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/166;G06F40/186 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 趙燕 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖譜 文本 生成 方法 系統 電子設備 存儲 介質 | ||
本發明提出一種基于圖譜的文本生成方法、系統、電子設備及存儲介質,其方法技術方案包括三元組排序步驟,基于一預設排序規則對構成圖譜的三元組進行排序;冗余處理步驟,去除排序后的所述三元組的冗余信息,并基于一預設重組規則對所述三元組進行修改重組;文本生成步驟,分析修改重組后的所述三元組的關系詞詞性,并根據分析結果通過一預設文本模板生成文本。本發明解決了現有文本生成方法缺乏指代、信息冗余的問題。
技術領域
本發明屬于語言處理領域,尤其涉及一種基于圖譜的文本生成方法、系統、電子設備及存儲介質。
背景技術
隨著科學技術的進步和知識圖譜的發展,人們可以從大量文本中提取有價值信息(如實體或實體間的關系),然后以結構化的形式存儲到指定數據庫中。盡管這些結構化信息大大節約了存儲成本且能夠以圖譜形式進行展示,但圖譜顯示得信息是無序性、零散的,這使用戶難以準確理解圖譜。因此,根據圖譜中的這些結構化信息生成有序的、有邏輯的、通順的文本來幫助人們理解圖譜是非常有價值的。
盡管已有許多關于圖譜知識生成文本段的研究成果,但這些研究成果中的訓練和測試語料主要以英文為主,故難以適用于中文文本生成;另外,中文訓練和測試語料的缺乏直接導致很少有學者研究由中文圖譜生成文本段落,倘若由人工標注訓練語料的話很耗費成本。
目前,知識圖譜中的知識大多數是由形如實體1,關系詞,實體2的三元組組成,而在將這些三元組生成文本段落時難免會遇到信息冗余的情況,即缺乏指代,也就是說文本段中的各子句里可能會出現大量相同的主語、謂語和賓語,明顯降低了用戶的體驗度。
發明內容
本申請實施例提供了一種基于圖譜的文本生成方法、系統、電子設備及存儲介質,以至少解決現有文本生成方法缺乏指代、信息冗余的問題。
第一方面,本申請實施例提供了一種基于圖譜的文本生成方法,包括:三元組排序步驟,基于一預設排序規則對構成圖譜的三元組進行排序;冗余處理步驟,去除排序后的所述三元組的冗余信息,并基于一預設重組規則對所述三元組進行修改重組;文本生成步驟,分析修改重組后的所述三元組的關系詞詞性,并根據分析結果通過一預設文本模板生成文本。
優選的,所述三元組排序步驟包括:有向圖構建步驟,將所述三元組進行去重,并轉換為一有向圖結構;規則排序步驟,計算所述有向圖的出入度信息,并根據所述出入度信息和三元組間的上下文信息對所述三元組進行排序。
優選的,所述規則排序步驟包括:先根據所述有向圖圖中各節點的出入度預先確定每個句子的起始三元組,再確定所述每個句子內所包含的其他三元組并確定所述每個句子內的三元組順序,最后確定所述每個句子的順序。
優選的,所述冗余處理步驟包括,將所述三元組中冗余的共享實體替換為代詞或空字符串。
第二方面,本申請實施例提供了一種基于圖譜的文本生成系統,適用于上述一種基于圖譜的文本生成方法,包括:三元組排序單元,基于一預設排序規則對構成圖譜的三元組進行排序;冗余處理單元,去除排序后的所述三元組的冗余信息,并基于一預設重組規則對所述三元組進行修改重組;文本生成單元,分析修改重組后的所述三元組的關系詞詞性,并根據分析結果通過一預設文本模板生成文本。
在其中一些實施例中,所述三元組排序單元包括:有向圖構建模塊,將所述三元組進行去重,并轉換為一有向圖結構;規則排序模塊,計算所述有向圖的出入度信息,并根據所述出入度信息和三元組間的上下文信息對所述三元組進行排序。
在其中一些實施例中,所述規則排序模塊包括:先根據所述有向圖圖中各節點的出入度預先確定每個句子的起始三元組,再確定所述每個句子內所包含的其他三元組并確定所述每個句子內的三元組順序,最后確定所述每個句子的順序。
在其中一些實施例中,所述冗余處理單元包括,將所述三元組中冗余的共享實體替換為代詞或空字符串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011417808.1/2.html,轉載請聲明來源鉆瓜專利網。





