[發明專利]一種基于雙向異步序列的對話生成方法及系統在審
| 申請號: | 202210083371.5 | 申請日: | 2022-01-25 |
| 公開(公告)號: | CN114492464A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 趙亞萍;曹鈺;陳超;王勇超 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/284;G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙向 異步 序列 對話 生成 方法 系統 | ||
本發明公開了一種基于雙向異步序列的對話生成方法,包括:S1獲取對話文本,識別對話文本中的關鍵詞,并生成所述關鍵詞對應的詞向量;S2基于S1中獲得的詞向量,生成對話文本的語句向量;S3將S2中獲得的對話文本的語句向量,與知識問答庫中樣本問句的語句向量計算相似度,生成包括多個候選答案的答案集以及候選答案對應的詞向量;S4基于S3中生成的答案集以及對應的詞向量,通過雙向異步序列算法,獲得初始回答文本;S5對初始回答文本進行修正,輸出最終的回答文本。本發明還提供了一種實施上述方法的系統。通過本發明的方法生成的回答文本附帶有更多拓展內容,通過修正算法避免了重復用詞的問題,進一步提高了回答文本的質量。
技術領域
本發明涉及人工智能、神經網絡與自然語言處理領域,尤其涉及一種基于雙向異步序列的對話生成方法及系統。
背景技術
人機對話一直是自然語言處理的一個熱門研究領域,多樣性和不確定性是人機對話更“真實”的關鍵因素,且得益于神經網絡的發展,數據驅動生成式對話模型在靈活性和交互自由度方面顯示出巨大潛力。
在神經網絡廣泛應用之前,對話生成任務的主要方法依賴于統計方法和檢索方法,不僅受限于特定領域,而且在大部分任務中需要人為設置規則進行導向。在神經網絡出現后,尤其是卷積神經網絡在圖像處理領域廣泛應用和循環神經網絡在文本處理領域取得優秀成果后,將神經網絡用于對話生成也成為熱點研究項目。相對于傳統的統計方法、檢索方法和指定規則方法,利用神經網絡進行對話生成所受的限制更低,可以在任意數據集上進行學習,并且可以取得充分擬合后的優良效果。即使用特定領域數據集,或者數據集包含大量噪聲,神經網絡模型依舊能夠充數據集中抽取知識。并且隨著多種深度學習框架的開發和開源,使得神經網絡模型變得更加容易編寫,更進一步的推動了神經網絡模型用于對話生成的熱潮。
但是現有由數據驅動的神經網路對話生成模型的性能并不佳,主要由3個方面的問題:
(1)模型傾向于毫無意義的安全普適的句子,例如“某物”和“我不知道”。這些回復是合理的,但是幾乎不包含有價值的知識信息,其中產生的原因是解碼器借助波束搜索傾向于選擇生成一個具有最大估計概率的安全回復。
(2)編碼器不能捕捉足夠的知識信息來提供給解碼器進行解碼。
(3)由于人類多種語言的復雜性,概率式生成的質量通常難以達到語言語義學的要求。
專利文獻CN113705255A公開了一種語料翻譯方法、裝置及電子設備,其中方法包括:第一神經網絡模型對語料樣本進行第一語料翻譯處理任務,得到基于語料樣本的前序詞生成的第一語料翻譯結果;第二神經網絡模型對語料樣本進行第二語料翻譯處理任務,得到基于語料樣本的上下文詞集合生成的第二語料翻譯結果,最后基于兩個翻譯結果生成翻譯語句。該方法對同一句話進行翻譯,通過不同的神經網絡進行識別后,通過類似于完型填空的方式對翻譯語句進行填充。該方法可以保證輸出的翻譯語句內容更加豐富,但是用于兩個網絡互不關聯,導致生成的第一語料翻譯結果與第二語料翻譯結果之間的關聯度不高,可能會出現兩個內容毫無關聯的情況,使得整個翻譯語句變得毫無意義。
專利文獻CN111782788A公開了一種面向開放域對話系統的情感回復自用生成方法,包括基于詞嵌入表和VAD情感詞典對語料庫中每個樣本的輸入和回復語句進行預處理得到輸入與回復的詞嵌入序列和情感嵌入序列;將詞嵌入和情感嵌入拼接對詞嵌入進行擴充并向模型引入回復的情感分布信息,將拼接序列向模型引入回復的情感分布信息,將拼接序列在編碼器中編碼得到輸入和回復包含情感信息的語義表示向量;最后通過語義表示向量預測條件先驗分布和后驗分布的近似并采樣潛變量,通過潛變量重構回復和回復的情感分布。該方法通過采樣概率生成多個回復,基于模型與VAD字典,生成具有情感的回復語句。該方法只能針對問題語句進行識別輸入對應的回復語句,輸出的回復語句可能會因為采樣結果過于相似導致輸出語句出現重復用詞的情況。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210083371.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鉆探孔內埋鉆事故的氣動處理方法
- 下一篇:縱縫嵌塞裝置及縱縫嵌塞復位方法





