[發明專利]一種知識圖譜的文本生成方法及裝置在審
| 申請號: | 202110662942.6 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113312919A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 程良倫;胡中強;張偉文 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉思言 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 文本 生成 方法 裝置 | ||
1.一種知識圖譜的文本生成方法,其特征在于,包括:
將預置知識圖譜三元組基于重構算法轉換為三元組序列,所述三元組序列包括索引和標簽;
基于預置堆疊GCN編碼器對所述三元組序列對應的嵌入預訓練詞向量進行編碼,得到編碼特征向量;
通過預置LSTM解碼器對所述編碼特征向量進行解碼,得到文本特征向量,所述預置LSTM解碼器包括上下文門控機制和注意力機制;
根據預置復制注意力機制對所述文本特征向量進行單詞生成操作,得到文本單詞;
采用預置波束搜索算法將所述文本單詞以最佳序列生成文本語句,所述預置波束搜索算法包括覆蓋率懲罰和長度歸一化懲罰。
2.根據權利要求1所述的知識圖譜的文本生成方法,其特征在于,所述將預置知識圖譜三元組基于重構算法轉換為三元組序列,所述三元組序列包括索引和標簽,包括:
在保留預置知識圖譜三元組的關系方向信息的情況下分別提取實體信息和關系信息;
對所述實體信息和所述關系信息進行分詞處理,得到多個三元組單詞;
對所述三元組單詞添加標簽后,根據所述標簽將所述三元組單詞重構至不同的序列中,得到三元組序列,所述三元組序列包括索引和標簽。
3.根據權利要求1所述的知識圖譜的文本生成方法,其特征在于,所述基于預置堆疊GCN編碼器對所述三元組序列對應的嵌入預訓練詞向量進行編碼,得到編碼特征向量,之前還包括:
采用預置BERT預訓練模型對所述三元組序列進行訓練處理,得到嵌入預訓練詞向量。
4.根據權利要求1所述的知識圖譜的文本生成方法,其特征在于,所述通過預置LSTM解碼器對所述編碼特征向量進行解碼,得到文本特征向量,所述預置LSTM解碼器包括上下文門控機制和注意力機制,包括:
基于上下文門控機制控制所述編碼特征向量在隱藏層中的信息流量,然后通過注意力機制下的LSTM網絡對所述編碼特征向量進行解碼,得到文本特征向量。
5.根據權利要求1所述的知識圖譜的文本生成方法,其特征在于,所述根據預置復制注意力機制對所述文本特征向量進行單詞生成操作,得到文本單詞,包括:
基于預置復制注意力機制,根據時間步和預置變量求解單詞生成過程中的復制概率;
根據所述復制概率計算單詞的生成概率;
若所述生成概率為0,則根據預置詞表執行單詞生成操作,得到文本單詞;
若所述生成概率為1,則從源序列中復制單詞生成所述文本單詞。
6.根據權利要求1所述的知識圖譜的文本生成方法,其特征在于,所述采用預置波束搜索算法將所述文本單詞以最佳序列生成文本語句,所述預置波束搜索算法包括覆蓋率懲罰和長度歸一化懲罰,包括:
根據歸一化原理構建長度歸一化懲罰項;
基于目標單詞對源單詞的注意力概率構建覆蓋率懲罰項;
結合所述長度歸一化懲罰項和所述覆蓋率懲罰項構建波束搜索函數;
根據所述波束搜索函數將所述文本單詞以最佳序列生成文本語句。
7.一種知識圖譜的文本生成裝置,其特征在于,包括:
轉換模塊,用于將預置知識圖譜三元組基于重構算法轉換為三元組序列,所述三元組序列包括索引和標簽;
編碼模塊,用于基于預置堆疊GCN編碼器對所述三元組序列對應的嵌入預訓練詞向量進行編碼,得到編碼特征向量;
解碼模塊,用于通過預置LSTM解碼器對所述編碼特征向量進行解碼,得到文本特征向量,所述預置LSTM解碼器包括上下文門控機制和注意力機制;
單詞生成模塊,用于根據預置復制注意力機制對所述文本特征向量進行單詞生成操作,得到文本單詞;
文本生成模塊,用于采用預置波束搜索算法將所述文本單詞以最佳序列生成文本語句,所述預置波束搜索算法包括覆蓋率懲罰和長度歸一化懲罰。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110662942.6/1.html,轉載請聲明來源鉆瓜專利網。





