[發(fā)明專利]一種基于混合專家模型和聯(lián)合學習的知識庫問題生成方法在審
| 申請?zhí)枺?/td> | 202110490812.9 | 申請日: | 2021-05-06 |
| 公開(公告)號: | CN113127623A | 公開(公告)日: | 2021-07-16 |
| 發(fā)明(設計)人: | 陳佳敏;畢勝;漆桂林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 許小莉 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 專家 模型 聯(lián)合 學習 知識庫 問題 生成 方法 | ||
本發(fā)明公開了一種基于混合專家模型和聯(lián)合學習的知識庫問題生成方法,主要用于給定知識圖譜三元組子圖、答案和復雜關系信息的情況下生成與給定三元組子圖相關的,可被答案回答的,并且對應給定關系信息的、多樣化的復雜自然語言表述問題。本發(fā)明使用圖神經(jīng)網(wǎng)絡對輸入三元組子圖進行編碼,得到輸入子圖的向量表示。使用Transformer網(wǎng)絡進行解碼,生成問題。在解碼過程中結合復雜問題場景,使用隱變量建模有效表示關系的結構信息。此外使用混合專家模型,指導問題生成,提升生成問題的多樣性。最后使用知識圖譜問答任務與知識圖譜問題生成任務聯(lián)合訓練,用于約束問題生成過程,使生成的問題包含期望的復雜關系信息,實現(xiàn)生成復雜問題的目的。
技術領域
本發(fā)明屬于自然語言處理領域,涉及一種基于混合專家模型和聯(lián)合學習的知識庫問題生成方法。
背景技術
近年來,隨著人工智能的快速發(fā)展,自然語言處理技術得到了越來越廣泛的關注。而問題生成(Question Generation,QG)作為自然語言理解的子任務,是自然語言處理更深層次的研究,對于人工智能技術發(fā)展有著重要推動作用。問題生成作為問答(QuestionAnswering,QA)任務的對偶任務,可以為QA任務生成高質(zhì)量的訓練數(shù)據(jù)集,實現(xiàn)FAQ(Frequently Asked Questions,常見問題解答)文檔自動生成、自動輔導系統(tǒng)(automatictutoring systems)實現(xiàn)。
問題生成任務根據(jù)給定的事實源輸入(如文本、圖片、知識庫)和答案,生成自然語言表述的問題。知識圖譜問題生成(Question Generation over Knowledge Base,KBQG)與一般 QG任務主要區(qū)別在于輸入從知識庫來的事實一般以三元組主語,關系謂詞,賓語形式表示,根據(jù)給定答案生成自然語言表述的問題。如對于給定三元組中國,首都,北京,可以生成問題“中國的首都是哪個城市?”。知識圖譜問題生成處理的結構化三元組信息,在搜索系統(tǒng)中廣泛使用,對比基于文本的問題生成任務有著更大的應用價值。
傳統(tǒng)的問題生成方法通過使用規(guī)則、模板和人工標注等方式實現(xiàn),這類方法需要大量的人力物力,需要一定的語言功底,無法用于大規(guī)模數(shù)據(jù)生成實現(xiàn),而且通過模板生成的問題多樣性不足,無法貼近真實應用場景。而隨著深度學習技術的進步,特別是RNN等序列網(wǎng)絡結構在機器翻譯、文本摘要等序列到序列(sequence to sequence,seq2seq)任務取得優(yōu)異表現(xiàn),給問題生成方法帶來很多思路啟發(fā)。使用深度學習方法實現(xiàn)自動問題生成可以有效提高生成問題的多樣性,因為不需要過多的人工參與,可以滿足大規(guī)模使用。目前基于編碼解碼器框架的端到端深度學習模型在簡單問題生成上已經(jīng)取得了較好的效果,但是無法有效處理知識圖譜問題生成涉及的復雜多跳關系場景。但是在知識圖譜問題生成任務中,多跳問題十分普遍,如問題“中國首都的簡稱?”就涉及三元組中國,首都,北京和北京,簡稱,京,生成該問題,邏輯上需要考慮關系“首都”和“簡稱”。對于這種涉及多個三元組信息的多跳復雜問題生成,現(xiàn)有方法無法有效編碼輸入三元組子圖信息,更重要的是無法約束問題生成過程,確保生成問題包含期望的多跳復雜關系。
基于現(xiàn)有知識圖譜復雜問題生成方法存在的問題,本發(fā)明公開了一種基于混合專家模型的知識圖譜復雜問題生成和問答聯(lián)合學習方法,主要用于給定知識圖譜三元組子圖、答案和復雜關系信息的情況下生成與給定三元組子圖相關的,可被答案回答的,并且對應給定關系信息的、多樣化的復雜自然語言表述問題。
發(fā)明內(nèi)容
技術問題:本發(fā)明要解決的技術問題在于針對知識圖譜復雜問題生成的研究,難以有效生成包含復雜關系信息的問題,提供一種基于混合專家模型和聯(lián)合學習的知識庫問題生成方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110490812.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





