[發明專利]一種結合知識庫中的三元組和實體類型的生成問題方法在審
| 申請號: | 202010872496.7 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN112115687A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 蔡毅;徐靜云 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/284;G06F40/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 知識庫 中的 三元 實體 類型 生成 問題 方法 | ||
1.一種結合知識庫中的三元組和實體類型的生成問題方法,其特征在于,所述方法包括以下步驟:
1)、利用三元組中頭實體和尾實體對應的實體類型重構三元組模型:所述重構三元組模型的輸入是三元組以及三元組中頭實體和尾實體對應的實體類型,輸出是一組基于實體類型的新三元組;
2)、利用預訓練好的詞向量Glove分別獲得表示新三元組中每個元素的詞向量以及表示訓練集中三元組所對應的問題的詞向量;
3)、通過一個由基于注意力機制的門控制循環神經單元構成的編碼器編碼新三元組的表示;
4)、通過一個由基于注意力機制的門控制循環神經單元構成的解碼器解碼,得到的新的表示新三元組的詞向量序列,從而得到一組表示生成的問題的詞向量序列;
5)、利用步驟4)中得到的詞向量序列獲得向量表示的詞語,詞向量序列是1個矩陣,這個矩陣中的每一列是1個向量,每個向量表示1個詞語,每一個向量的長度等于整個詞匯表中的詞語個數,向量中最大維度對應的詞語就是該向量表示的詞語,最終將所有對應的詞語組合起來就是生成的問題,將在生成的問題中出現的實體類型用對應的輸入中的三元組中具體的實體替換掉,最終得到一個新的問題作為輸出。
2.根據權利要求1所述的結合知識庫中的三元組和實體類型的生成問題方法,其特征在于,所述步驟1)重構三元組模型的步驟包括:
1.1)、設原始的輸入數據為E={E1,E2,E3,E4,E5}序列,其中E1和E3分別表示某個三元組中的頭實體和尾實體,E2則表示E1和E3之間的定義的關系,E4和E5分別表示E1和E3所對應的的實體類型;
1.2)、將實體E1和E2組成二元組實體對(E1,E2),E1和E2表示數據集中每一條標注好的實體,用E1和E2所對應的實體類型進行替換,獲得新三元組e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
1.3)、在原始的輸入數據中迭代執行步驟1.1)和步驟1.2),獲得由三元組重構之后的新三元組組成的新數據集,最終按比例分為新的訓練集、測試集、驗證集。
3.根據權利要求1所述的結合知識庫中的三元組和實體類型的生成問題方法,其特征在于,所述步驟2)具體的步驟包括:
2.1)、設輸入到詞向量模型的每條數據包括重構之后的新三元組e={e1,e2,e3}、重構之后的新三元組所對應的問題以及預訓練好的詞向量Glove;三元組所對應的問題為X={X1,X2,…,Xi}序列,其中Xi表示問題的第i個詞;
2.2)、在詞向量Glove中獲得新三元組中每個元素對應的向量化表示以及問題中詞語對應的向量化表示,將表示三元組中的元素的三個向量進行橫向拼接得到一個矩陣來表示三元組,將表示問題中的每個詞語的向量豎向拼接得到一個矩陣來表示問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010872496.7/1.html,轉載請聲明來源鉆瓜專利網。





