[發明專利]提高相關性的神經問題生成方法有效
| 申請號: | 201910568228.3 | 申請日: | 2019-06-27 |
| 公開(公告)號: | CN110263143B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 熊德意;邱嘉作 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 馮瑞 |
| 地址: | 215168 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提高 相關性 神經 問題 生成 方法 | ||
本發明公開了一種提高相關性的神經問題生成方法。本發明一種提高相關性的神經問題生成方法,包括:基于seq2seq的QG模型,由encoder層和decoder組成,并加入了attention機制和copy機制;基于字符重疊的部分copy機制。本發明的有益效果:通過基于字符重疊度的部分copy機制,我們可以使得生成問題中在單詞級別和輸入文檔具有更高的重疊度和相關性。通過基于QA模型的重排序機制,我們可以為生成的那些質量較好的候選問題賦予更高的分數,而過濾掉那些較為通用的、難以回答的問題。
技術領域
本發明涉及問題生成領域,具體涉及一種提高相關性的神經問題生成方法。
背景技術
問題生成(Question Generation,QG)是自然語言處理中一個非常重要的問題,是考驗計算機是否真正理解文本的一項重要途徑,并廣泛應用于各個領域。QG可以為問答系統(Question Answering,QA)創建大量的QA對,為相關任務提供數據集。同時,QG本身也可以為醫療診斷系統、家庭教育系統等提供服務。QG任務的輸入通常包含文檔(或句子)和答案,輸出是在給定文檔和目標答案的情況下,生成最有可能的問題。
一般來說,QG模型是一個序列到序列的結構(Sequence to sequence,seq2seq),由一個編碼器(encoder)和解碼器(decoder)組成,encoder將輸入的文檔和目標答案編碼成向量(也稱為源端),然后decoder根據這個向量逐字生成一個完整的問題(也稱為目標端)。為了增強模型的性能,通常還會有注意力(attention)機制和拷貝(copy)機制。
相關技術:
(1)Leveraging Context Information for Natural Question Generation。文章構造一個seq2seq的模型,將文檔和目標答案作為輸入,旨在生成一個合理的問題。這個模型帶有attention機制和copy機制。
傳統技術存在以下技術問題:
QG模型是個seq2seq的結構,并且通常會加入copy機制來保證生成問題的可靠性。
實際上,由于生成模型的特性,QG模型往往會趨向于生成一些較為通用的問題,比如“他叫什么名字?”、“他是誰?”、“它是什么?”。這種問題具有極強的一般性,針對于不同的輸入都可以提出類似的問題,因此非常受到QG模型的青睞。但實際上,這種通用性問題并不是我們想要的好的問題,它們和輸入文檔/答案不具有較高的相關性,也會讓回答者難以回答。
發明內容
本發明要解決的技術問題是提供一種提高相關性的神經問題生成方法,針對于QG模型中“生成的問題通用性強、相關性低”的問題,我們提出了兩種改善的方法:一種是使用基于字符重疊的部分copy機制,通過字符重疊度來優先考慮原文中出現的詞或是其變形詞,另一種是基于QA模型的重排序機制,通過QA模型來評價生成問題的質量并以此為依據進行重排序。這兩種方法可以讓我們的QG模型可以生成與輸入文檔/答案具有更高相關性的問題。
為了解決上述技術問題,本發明提供了一種提高相關性的神經問題生成方法,包括:基于seq2seq的QG模型,由encoder層和decoder組成,并加入了attention機制和copy機制;
基于字符重疊的部分copy機制:
考慮使用最長公共子序列(Longest common subsequence,LCS)來定義單詞w1和w2的重疊度C:
這里使用一個閾值來對C進行過濾:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910568228.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于輸出信息的方法和裝置
- 下一篇:一種答案獲取方法及裝置





