[發明專利]一種基于雙向異步序列的對話生成方法及系統在審

申請號：	202210083371.5	申請日：	2022-01-25
公開（公告）號：	CN114492464A	公開（公告）日：	2022-05-13
發明（設計）人：	趙亞萍;曹鈺;陳超;王勇超	申請（專利權）人：	浙江大學
主分類號：	G06F40/35	分類號：	G06F40/35;G06F40/284;G06F40/253;G06N3/04;G06N3/08
代理公司：	杭州天勤知識產權代理有限公司 33224	代理人：	胡紅娟
地址：	310058 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于雙向異步序列對話生成方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于雙向異步序列的對話生成方法，其特征在于，包括：

S1獲取對話文本，識別對話文本中的關鍵詞，并生成所述關鍵詞對應的詞向量；

S2基于S1中獲得的詞向量，生成對話文本的語句向量；

S3將S2中獲得的對話文本的語句向量，與知識問答庫中樣本問句的語句向量計算相似度，生成包括多個候選答案的答案集以及候選答案對應的詞向量；

S4基于S3獲得的答案集中候選答案以及對應的詞向量，通過雙向異步序列算法，獲得初始回答文本；

S5對初始回答文本進行修正，輸出最終的回答文本。

2.根據權利要求1所述的對話生成方法，其特征在于，所述S2中具體為：

S2.1將關鍵詞的詞向量轉換為詞向量矩陣；

S2.2通過Bi-LSTM網絡生成每個關鍵詞對應的隱藏向量；

S2.3將所有關鍵詞的隱藏向量鏈接起來，獲得對應對話文本的語句向量。

3.根據權利要求1所述的對話生成方法，其特征在于，所述S3中知識問答庫是輸入樣本問句與對應的候選答案三元組，通過雙層Bi-LSTM網絡進行訓練獲得。

4.根據權利要求1所述的對話生成方法，其特征在于，所述S4雙向異步序列算法是基于反向解碼器與正向解碼器對答案集中候選答案以及對應的詞向量進行解碼。

5.根據權利要求4所述的對話生成方法，其特征在于，所述反向解碼器與正向解碼器對答案集中候選答案以及對應的詞向量進行解碼，具體為：

S4.1從所述答案集中選取相似度最高的候選答案作為起始詞；

S4.2基于起始詞與對應的詞向量，通過反向解碼器倒序生成前半部回答文本；

S4.3對前半部回答文本進行翻轉處理后，識別獲得前半部回答文本的語句向量；

S4.4基于S4.3獲得的語句向量，再次與知識問答庫中樣本問句的語句向量計算相似度，獲得對應的答案集；

S4.5基于前半部回答文本的語義信息與S4.4獲得的答案集中候選答案的詞向量，通過正向解碼器生成后半部回答文本；

S4.6將前半部回答文本與后半部回答文本的語句向量鏈接，獲得初始回答文本。

6.根據權要求1所述的對話生成方法，其特征在在于，所述S5中對初始回答文本進行修正是通過檢測單詞或\和短句的詞向量出現次數，經過懲罰權重計算對文本進行修正。

7.根據權利要求6所述的對話生成方法，其特征在于，所述懲罰權重計算，具體為：

其中，N為檢測到的重復區間的長度，s_t為時刻t對應的生成的回復，x_i為已生成的前置詞向量，p(s_t|x_i)為s_t在已生成的x_i條件下的生成概率，對重復出現3次以上的單詞或\和短句進行輸出裁剪處理。

8.一種實施權利要求1-7任一所述的對話生成方法的系統，其特征在于，包括：

輸入模塊，用于獲取對話文本；

知識問答模塊，基于獲取的對話文本，生成對應的答案集；

對話生成模塊，基于對話文本的語義信息，與對應的答案集生成初始回答文本；

修正模塊，對初始回答文本進行重復詞的裁剪修正；

輸出模塊，用于輸出完成修正后的回答文本。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江大學，未經浙江大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210083371.5/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】