[發明專利]一種用于對話生成的混合神經網絡模型的構建方法有效
| 申請號: | 201710725762.1 | 申請日: | 2017-08-22 |
| 公開(公告)號: | CN107506823B | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 黃宜華;陳泳昌;袁春風;趙博 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06F16/332;G06F40/211;G06F40/284 |
| 代理公司: | 蘇州威世朋知識產權代理事務所(普通合伙) 32235 | 代理人: | 楊林潔 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 對話 生成 混合 神經網絡 模型 構建 方法 | ||
本發明公開了一種用于對話生成的混合神經網絡模型的構建方法,包括以下步驟:獲取形式為對話語句對的數據集并構建詞匯表;生成詞嵌入表;初始化特定結構的卷積神經網絡,生成對應輸入語句的詞匯推薦表,判斷是否提供了真實輸出,若有提供則訓練本步中的卷積神經網絡的參數;初始化特定結構的循環神經網絡,使用上步輸出,生成具有語序的詞匯標識列表,判斷是否提供了真實輸出,若有提供則訓練本步中的循環神經網絡的參數;訓練結果滿足設定指標后,保存詞匯表和詞嵌入表,保存卷積神經網絡和循環神經網絡的參數,即為構建整個模型完畢。本發明解決現有的神經網絡對話模型因詞匯表長度過大導致的訓練速度慢、準確率低、生成語句一般化等問題。
技術領域
本發明涉及人工智能、神經網絡與自然語言處理領域,具體是一種用于對話生成的混合神經網絡模型的構建方法。
背景技術
在自然語言處理領域,對話生成一直是廣受關注同時又頗具難度的課題。在人工智能領域,機器能否像人一樣使用自然語言進行對話是判定人工智能是否強大的重要標準之一。在神經網絡廣泛應用之前,對話生成任務的主要方法依賴于統計方法和檢索方法,不僅受限于特定領域,而且在大部分任務中需要人為設置規則進行導向。在神經網絡出現后,尤其是卷積神經網絡在圖像處理領域廣泛應用和循環神經網絡在文本處理領域取得優秀成果之后,將神經網絡用于對話生成也成為了熱點研究項目。相對于傳統的統計方法、檢索方法和制定規則方法,利用神經網絡進行對話生成所受的限制更低,可以在任意數據集上進行學習,并且可以取得充分擬合后的優良效果。即使使用特定領域數據集,或者數據集包含大量噪聲,神經網絡模型依然能夠從數據集中抽取知識。并且隨著多種深度學習框架的開發和開源,如TensorFlow和PyTorch等,編寫神經網絡模型也變得更為簡易,從而進一步推動了將神經網絡模型用于對話生成的熱潮。
但是目前實現的多種用于對話生成的神經網絡模型,并不能有效地解決對話生成任務中的諸多問題。使用神經網絡模型進行對話生成,難以避免生成的語句過于一般化的問題。因為常用語句的出現概率極高,在神經網絡進行較好擬合后,使用常用語句進行回答,會使得得分較高,或造成的誤差較低,故而神經網絡模型用于對話生成極易陷入總是生成一句常用語句的困境。同時,在自然語言處理中,詞匯作為基本組成單元,數量龐大。不同于常規處理任務中的少量類別,使用神經網絡對詞匯進行概率計算和選取時,一個詞匯即為一個類別。在對話任務中,神經網絡模型需要面臨龐大的分類數量,并且類別分布不均,同時伴有罕見分類卻極具價值的現象,神經網絡模型難以預測此類詞匯。目前的神經網絡模型并沒有解決上述問題,盡管已有相關模型通過隨機采樣的方法降低了訓練時的分類數量,但是這一方法導致預測效果不理想,同時預測效果依賴于采樣分布的選取。此外,現有的神經網絡模型難以分割成模塊,需要作為一個整體進行訓練和使用,如果需要更改其中某一部分以達到一些特殊目的,改動麻煩且需要重新訓練,造成已有結果的浪費。
發明內容
發明目的:針對上述現有技術存在的問題和不足,本發明的目的是使用一種更為有效的采樣方法,從而提升最終生成的對話的質量以及減少訓練時長,同時做到分模塊訓練模型的不同部分,使得在滿足規范的前提下,改動模塊更為簡易。
技術方案:為實現上述發明目的,本發明采用的技術方案為一種用于對話生成的混合神經網絡模型的構建方法,包括以下步驟:
(1)根據語句對組成的數據集,拆分語句對生成發起語句集和應答語句集,通過分詞獲得發起語句集以及應答語句集中每條語句的詞匯,統計詞匯頻度,根據詞匯頻度構建詞匯表;
(2)根據步驟(1)中構建的詞匯表,將數據集、發起語句集和應答語句集使用詞匯的數字標識表示;
(3)根據步驟(2)中數據集的數字標識表示,經Skip-Gram模型計算得到每個數字標識的詞嵌入表示,并分別對應數字標識表示的詞匯,生成詞嵌入表;
(4)根據特定的卷積神經網絡模型參數,初始化構建一個卷積神經網絡判別器,用于判別給定語句的詞匯數字標識列表作為輸入后詞匯表中的詞匯是否出現;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710725762.1/2.html,轉載請聲明來源鉆瓜專利網。





