[發明專利]基于混合專家模型的復雜度可控的多樣化問題生成方法在審
| 申請號: | 202110099300.X | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112668344A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 畢勝;程茜雅;漆桂林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 張天哲 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 專家 模型 復雜度 可控 多樣化 問題 生成 方法 | ||
本發明公開了一種基于混合專家模型的復雜度可控的多樣化問題生成方法,主要用于生成與文本相關的滿足復雜度要求的自然語言問題。本發明以現有問答數據集中海量的問題數據為起點,提出了一種新型的問題復雜度評估方式,該方法由6個復雜度評估指標組合而成。并用該復雜度評估方式對現有數據集進行難度標注,作為模型的訓練集、驗證集和測試集。使用雙向LSTM網絡對給定文本和答案進行編碼,得到對應的語義表示并拼接起來。使用LSTM網絡對編碼結果進行解碼,生成問題。在解碼過程中使用隱向量建模不同復雜度的問題模板,從而指導滿足給定復雜度的問題生成。并使用混合專家模型選擇不同的文本內容,從而生成不同的問題,提升問題生成的多樣性。
技術領域
本發明屬于自然語言處理領域,涉及一種混合專家模型的復雜度可控的多樣化問題生成方法。
背景技術
近年來,隨著人工智能的快速發展,自然語言處理技術得到了越來越廣泛的應用。自然語言處理分為自然語言理解和自然語言生成兩大部分。其中,問題生成(QuestionGeneration,QG)任務是自然語言生成中的典型任務。問題生成指的是從一系列數據源中(例如文本、圖片、知識庫)自動生成自然語言問題。問題生成任務的應用前景十分廣闊,例如,在人機交互領域,通過提問與用戶產生對話的聊天機器人(Siri、微軟小冰等);在教育領域,通過根據課程材料生成問題對學生的水平進行測試,了解學生對知識的掌握程度;另外,作為自動問答的對偶任務,QG任務可以通過生成大量高質量的問題,為訓練QA模型提供大規模數據集,從而提升QA模型的效果。
目前問題生成的工作主要集中在閱讀理解領域,以事實文本為依據,針對給定答案生成一個自然語言表述的問題。傳統的QG方法主要利用手工構建的規則模板并結合人工標注完成,這種方式十分耗費人力物力,并且通過模板生成的問題缺乏自然性和多樣性。隨著深度學習技術的發展,受序列到序列(Seq2seq)模型在機器翻譯等文本生成任務的研究的啟發,結合深度學習的QG方法研究也受到了學者們的廣泛關注。使用端到端的深度神經網絡模型不僅能夠有效提升生成問題的自然性和多樣性,而且能夠達到較好的生成效果。但是當前基于深度學習的QG方法主要研究簡單問題的生成,而很少有研究復雜問題生成的工作。復雜問題的生成也具有很多現實意義,例如,在教育領域,因為不同的學生接受知識的能力也不同,如果一味的生成簡單問題,難以測試出學生的真實水平。對于能力強的學生,需要用復雜問題進行測試才能得到真實的反饋。另外,現有問答(Question Answering,QA)系統在簡單問題上的表現已經達到了瓶頸,而復雜問題更有利于提升QA系統。而大多數現有工作無法控制所生成問題的復雜性,因此,研究復雜問題生成具有一定的實用價值和應用前景。
基于此,本工作提出一種基于混合專家模型的復雜度可控的問題生成模型。主要用于給定文本、答案和復雜度指標的情況下生成與文本相關的,可被答案回答的,并且滿足復雜度要求的、多樣化的自然語言問題。
發明內容
技術問題:本發明要解決的技術問題在于針對缺乏復雜度可控問題的研究,難以進行復雜度評估和復雜度建模,提供一種基于混合專家模型的復雜度可控的多樣化問題生成方法。
技術方案:本發明解決其技術問題所采用的技術方案是:一種基于混合專家模型的復雜度可控的多樣化問題生成方法。該方法以現有問答數據集中海量的問題數據為起點,提出了一種新型的問題復雜度評估方式,該方法由6個復雜度評估指標組合而成。并用該復雜度評估方式對現有數據集進行難度標注,作為本發明提出模型的訓練集、驗證集和測試集。使用雙向LSTM網絡對給定文本和答案進行編碼,得到對應的語義表示并拼接起來。使用LSTM網絡對編碼結果進行解碼,生成問題。在解碼過程中使用隱向量建模復雜度因素,從而指導滿足給定復雜度的問題生成。并使用混合專家模型選擇不同的文本內容,從而生成不同的問題,提升問題生成的多樣性。
本發明的基于混合專家模型的復雜度可控的多樣化問題生成方法包括如下步驟:
1)挖掘問答數據集特征,提出一種自適應的問題復雜度的衡量方法;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110099300.X/2.html,轉載請聲明來源鉆瓜專利網。





