[發明專利]一種知識圖譜的文本生成方法及裝置在審
| 申請號: | 202110662942.6 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113312919A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 程良倫;胡中強;張偉文 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉思言 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 文本 生成 方法 裝置 | ||
本申請公開了一種知識圖譜的文本生成方法及裝置,方法包括:將預置知識圖譜三元組基于重構算法轉換為三元組序列,三元組序列包括索引和標簽;基于預置堆疊GCN編碼器對三元組序列對應的嵌入預訓練詞向量進行編碼,得到編碼特征向量;通過預置LSTM解碼器對編碼特征向量進行解碼,得到文本特征向量,預置LSTM解碼器包括上下文門控機制和注意力機制;根據預置復制注意力機制對文本特征向量進行單詞生成操作,得到文本單詞;采用預置波束搜索算法將文本單詞以最佳序列生成文本語句,預置波束搜索算法包括覆蓋率懲罰和長度歸一化懲罰。本申請解決了現有技術易出現OOV問題,以及生成句子不忠于原輸入的情況,導致生成的文本語句質量較差的技術問題。
技術領域
本申請涉及知識圖譜技術領域,尤其涉及一種知識圖譜的文本生成方法及裝置。
背景技術
圖卷積神經網絡(Graph Convolutional Network,GCN),是一種強大的神經網絡,它是圖神經網絡(GraphNeural Network,GNN)的一種變體,計算方式類似于卷積神經網絡(Convolutional Neural Network,CNN),但與之不同的是GCN的運用對象是圖數據,并研究從圖數據中提取特征。GCN模型具備深度學習的三種性質:層級結構、非線性變換以及端對端訓練。尤其在知識圖譜中節點和節點間的關系連線的圖結構十分適合GCN網絡,并且可以獲取更多的圖結構特征信息以及隱藏關系信息。
知識圖譜(Knowledge Graph,KG)技術是人工智能技術的組成部分,其強大的語義處理和互聯組織能力,為智能化信息應用提供了基礎。而知識圖譜到文本生成屬于自然語言生成(Natural Language Generation,NLG)中的圖到文本生成任務,圖到文本生成是指從輸入的圖結構數據中生成自然語言文本,這些圖結構可以是語義表示、知識圖的子圖或其他形式的結構化數據。知識圖譜到文本生成就是針對RDF(Resource DescriptionFramework)子圖結構數據的文本生成。從知識圖譜中生成文本可以使更廣泛的終端用戶訪問存儲的信息,同時對于知識問答、數據到文檔生成以及推薦系統具有重要意義。
目前對于知識圖譜到文本生成的方法主要有基于神經網絡的端到端方法、管道以及其他方法。盡管最近的一些模型可以取得比較好的效果,它們在一定程度上仍存在生成單詞OOV(Out-Of-Vocabulary)問題,并且,現有技術容易出現生成句子不忠實于原輸入的情況,導致三元組生成句子的質量較差。
發明內容
本申請提供了一種知識圖譜的文本生成方法及裝置,用于解決現有技術易出現OOV問題,以及生成句子不忠于原輸入的情況,導致生成的文本語句質量較差的技術問題。
有鑒于此,本申請第一方面提供了一種知識圖譜的文本生成方法,包括:
將預置知識圖譜三元組基于重構算法轉換為三元組序列,所述三元組序列包括索引和標簽;
基于預置堆疊GCN編碼器對所述三元組序列對應的嵌入預訓練詞向量進行編碼,得到編碼特征向量;
通過預置LSTM解碼器對所述編碼特征向量進行解碼,得到文本特征向量,所述預置LSTM解碼器包括上下文門控機制和注意力機制;
根據預置復制注意力機制對所述文本特征向量進行單詞生成操作,得到文本單詞;
采用預置波束搜索算法將所述文本單詞以最佳序列生成文本語句,所述預置波束搜索算法包括覆蓋率懲罰和長度歸一化懲罰。
優選地,所述將預置知識圖譜三元組基于重構算法轉換為三元組序列,所述三元組序列包括索引和標簽,包括:
在保留預置知識圖譜三元組的關系方向信息的情況下分別提取實體信息和關系信息;
對所述實體信息和所述關系信息進行分詞處理,得到多個三元組單詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110662942.6/2.html,轉載請聲明來源鉆瓜專利網。





