[發明專利]基于疑問詞分類器的神經網絡問題生成方法及生成系統在審
| 申請號: | 202110498928.7 | 申請日: | 2021-05-08 |
| 公開(公告)號: | CN113094489A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 陳光;顧鑫彤;李思;徐雅靜;徐蔚然 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京挺立專利事務所(普通合伙) 11265 | 代理人: | 高福勇 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 疑問詞 分類 神經網絡 問題 生成 方法 系統 | ||
基于疑問詞分類器的神經網絡問題生成方法及生成系統,涉及互聯網技術領域,解決現有基于分類器的網絡模型存在生成問題中的疑問詞不準確,導致存在根本性錯誤等問題,生成系統包括答案位置標注模塊、疑問詞分類器、疑問詞添加模塊以及神經網絡問題生成模型;本發明在神經網絡問題生成任務的基礎上,將疑問詞預測任務建模為一個獨立的分類任務,即在神經網絡問題生成模型之前,引入一個疑問詞分類器,先通過疑問詞分類器識別最可能提問的疑問詞,再生成完整的問題。目的是提高疑問詞生成的準確率和可解釋性,最終減小所生成問題和真實問題的差異,提高問題的質量。
技術領域
本發明涉及互聯網技術領域,具體涉及一種基于疑問詞分類器的神經網絡問題生成方法及生成系統。
背景技術
隨著計算機技術發展,計算機算力逐漸加強,機器學習、深度學習技術進一步得到發展,自然語言處理逐漸應用到各個場景,例如利用文本分類技術在電影評論、購物的商品評論中挖掘用戶偏好、利用摘要生成技術對新聞等文章進行歸納總結,或是通過機器翻譯技術,實現同步翻譯等。大量的應用場景需要技術,同時隨著國內互聯網用戶的增加,其產生的信息也越來越多。對于海量數據,自動化處理文本信息更凸顯其重要意義。因此,由于自然語言處理技術的不可代替及其對于文本處理的超高效率,受到社會廣泛關注。
在自然語言處理領域,問題生成(Question Generation,QG)是一個新興的熱門研究課題。傳統意義上,QG的定義是給定一篇文本,里面包含一些重要的事實,將這些事實作為待提問答案,由機器自動提出合理的問題。簡單的說,QG可以定義為一個優化問題,即在給定文本和答案的前提下,最大化生成合理問題的概率。問題生成具有豐富的實踐意義和價值,其應用場景包括:在教育領域,問題生成可以幫助學生思考和提問,以提高閱讀理解的能力;在對話系統中,問題生成可以作為冷啟動來開始一個話題或者通過對用戶的陳述展開提問,提高用戶體驗;在醫藥領域,可以用于自動問診系統,作為一種輔助工具等等。
隨著深度學習的發展,端到端神經網絡技術已經普遍應用于自然語言處理領域。所謂“端到端”,是指輸入端和輸出端都是文本序列。端到端神經網絡模型通常由一個編碼器和一個解碼器組成,編碼器負責對輸入序列進行編碼,提取重要的特征,解碼器負責識別這些特征,并輸出目標序列。而編碼器和解碼器分別是由神經網絡組成,常用的神經網絡包括循環神經網絡(Recurrent Neural Network,RNN)以及卷積神經網絡(ConvolutionalNeural Network,CNN)。相較于傳統的機器學習方法,端到端神經網絡模型不用人工設計算法提取特征,特征的提取全部是由神經網絡完成,減少了人力勞動成本,并且性能更加優越?,F有技術多采用基于注意力機制的端到端神經網絡模型和其改進。
首次提出基于端到端神經網絡問題生成模型的(Learning to Ask:NeuralQuestion Generation for Reading Comprehension,學習去提問:閱讀理解的神經問題生成)的文章中,提出將一段文本輸入端到端神經網絡模型,生成一個問題:
首先,將原始文本轉換成詞向量的形式,輸入到一個編碼器中,獲取文本的語義特征向量;其次,將特征向量輸入到一個解碼器中,并添加注意力機制強化對輸入文本的理解能力,獲取解碼后的向量;最后,通過一個全連接層,在每個時刻輸出一個單詞,最終組成一個問題。該模型的編碼器是由一個雙向長短期記憶神經網絡(Bi-LSTM:BidirectionalLong Short Term Memory)組成,解碼器是由一個單向LSTM組成。其中,LSTM是循環神經網絡的一種。
如圖1所示,現有技術之一的(Paragraph-level Neural Question Generationwith Maxout Pointer and Gated Self-attention Networks,基于最大輸出指針和門控自注意力的段落級神經問題生成)的文章中,提到用門控自注意力(Gated Self-attention)和最大輸出指針(Maxout Pointer)技術,對更長的輸入文本生成問題并減少重復詞的產生:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110498928.7/2.html,轉載請聲明來源鉆瓜專利網。





