[發(fā)明專利]基于細(xì)粒度局部信息增強(qiáng)的對話結(jié)構(gòu)感知對話方法及系統(tǒng)在審

申請?zhí)枺?/td>	202210109486.7	申請日：	2022-01-28
公開（公告）號：	CN114490991A	公開（公告）日：	2022-05-13
發(fā)明（設(shè)計）人：	陳羽中;陳澤林	申請（專利權(quán)）人：	福州大學(xué)
主分類號：	G06F16/332	分類號：	G06F16/332;G06F16/33;G06N3/04;G06N3/08;G06K9/62
代理公司：	福州元創(chuàng)專利商標(biāo)代理有限公司 35100	代理人：	張燈燦;蔡學(xué)俊
地址：	350108 福建省福州市***	國省代碼：	福建;35
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于細(xì)粒度局部信息增強(qiáng) 對話結(jié)構(gòu) 感知方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種基于細(xì)粒度局部信息增強(qiáng)的對話結(jié)構(gòu)感知對話方法及系統(tǒng)，該方法包括以下步驟：步驟A：獲取特定場景的多輪對話文本，并標(biāo)注每個多輪對話回復(fù)所屬的類別，構(gòu)建帶正負(fù)類別標(biāo)簽的訓(xùn)練集D；步驟B：使用訓(xùn)練集D訓(xùn)練細(xì)粒度局部信息增強(qiáng)的對話結(jié)構(gòu)感知深度學(xué)習(xí)網(wǎng)絡(luò)模型SAFL，用于選擇給定多輪對話上下文對應(yīng)的回復(fù)；步驟C：將多輪對話上下文與回復(fù)集輸入到訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò)模型SAFL中，得到對應(yīng)多輪對話上下文最合適的回復(fù)。該方法及系統(tǒng)有利于提高提高多輪對話回復(fù)選擇的精確度。

技術(shù)領(lǐng)域

本發(fā)明屬于自然語言處理領(lǐng)域，具體涉及一種基于細(xì)粒度局部信息增強(qiáng)的對話結(jié)構(gòu)感知對話方法及系統(tǒng)。

背景技術(shù)

近些年來，隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展，人類在與計算機(jī)的智能對話中取得了重大進(jìn)步，對話系統(tǒng)逐漸走進(jìn)了大家的視野。對話系統(tǒng)對工業(yè)界和學(xué)術(shù)界都有著重要的研究價值，并且可以廣泛應(yīng)用在很多領(lǐng)域。目前的對話系統(tǒng)算法主要有生成式對話和檢索式對話兩類，其中，生成式對話在推理階段不依賴任何語料庫就能根據(jù)一個問題逐字生成一個答案，其生成的答案具有多樣性的優(yōu)點(diǎn)，但獲取的答案往往邏輯性不強(qiáng)，有時還會陷入安全回復(fù)的陷阱中。而檢索式對話是讓算法根據(jù)特定的一個問題到語料庫中找到一個最合適的答案進(jìn)行回復(fù)，能夠從問題中提取出與正確回復(fù)相關(guān)聯(lián)的信息，依據(jù)這些信息推理出合適的答案。檢索式對話模型目前已廣泛應(yīng)用于微軟小冰等多輪對話系統(tǒng)中，相較于生成式對話模型更加可靠，具有更好的實用性。

Lowe等人針對檢索式多輪對話中的回復(fù)選擇任務(wù)構(gòu)建了兩個基準(zhǔn)模型，分別基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks，RNNs)算法和長短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory，LSTM)算法。這兩個基準(zhǔn)模型在對文本進(jìn)行編碼的過程中借助RNN的隱藏層單元記憶上一時刻的文本特征，為模型引入時間順序信息，克服了早期算法中使用詞袋模型的缺點(diǎn)。但是在多輪對話中，對話歷史可能是冗長的，并非所有的內(nèi)容都與回復(fù)相關(guān)，上述的兩個基準(zhǔn)模型對整段對話數(shù)據(jù)直接進(jìn)行編碼，不能有針對性的從對話數(shù)據(jù)中提取出重要的信息，導(dǎo)致為模型帶來不必要的噪聲。為了從長文本中提取出重要的信息，研究人員提出通過將上下文和回復(fù)進(jìn)行匹配來提取出重要的信息，將回復(fù)選擇任務(wù)分解為三個步驟，第一步驟是使用基于RNN的算法從每一個話語和回復(fù)中提取特征，第二個步驟是將提取到的話語特征與回復(fù)特征去做匹配，第三個步驟就是使用CNN等方法在匹配矩陣中取出計算分?jǐn)?shù)需要的信息。但是RNN能提取到的語義信息是有限的，RNN編碼假設(shè)數(shù)據(jù)是序列相關(guān)的，但是在對話數(shù)據(jù)中話題是動態(tài)的，距離很遠(yuǎn)的兩段話也可能高度相關(guān)，RNN編碼難以準(zhǔn)確學(xué)習(xí)到這兩段話的關(guān)系，同時RNN在編碼長度較長的段落時還可能會出現(xiàn)梯度消失的現(xiàn)象，不能很好獲取遠(yuǎn)距離依賴關(guān)系。RNN的局限性導(dǎo)致上述方法可能在第一個步驟中就已經(jīng)丟失了重要的信息。2017年Vaswani提出的Transformer架構(gòu)借助大量的自注意力和交互注意力運(yùn)算，能夠充分掌握全局的依賴信息，不受序列距離的限制。研究人員將Transformer的編碼器部分改寫并應(yīng)用于模型的編碼模塊，加強(qiáng)了模型提取信息的能力，同時受Transformer中多頭注意力機(jī)制的影響，這些工作在匹配階段利用多頭注意力構(gòu)建了多種粒度的語義信息，豐富了模型的特征表示，取得了明顯的提升效果。但是，上述模型還存在著以下幾點(diǎn)問題。第一，對于全局序列信息考慮不足。上述模型主要在匹配結(jié)束之后使用RNN等方法編碼所有的語句表征，這些語句表征在編碼，匹配階段可能就已經(jīng)丟失了重要的信息。第二，使用的詞向量表示沒有考慮到上下文語境。上述模型主要使用Word2vec這樣的靜態(tài)詞向量，難以解決一詞多義問題，無法根據(jù)不同的上下文語境準(zhǔn)確表達(dá)語義信息，從而在編碼階段就帶來噪聲。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué)，未經(jīng)福州大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210109486.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種智能家居綠色減碳系統(tǒng)
下一篇：樣本管供給裝置、全自動均相化學(xué)發(fā)光即時檢測分析儀

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】