[發(fā)明專利]用于智能語音對話系統(tǒng)的語音數(shù)據(jù)處理方法及裝置在審

申請?zhí)枺?/td>	202010086219.3	申請日：	2020-02-11
公開（公告）號：	CN111402872A	公開（公告）日：	2020-07-10
發(fā)明（設(shè)計）人：	彭殷路;孔冬兵	申請（專利權(quán)）人：	升智信息科技（南京）有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/26;G10L15/28;G10L15/18
代理公司：	南京經(jīng)緯專利商標代理有限公司 32200	代理人：	湯金燕
地址：	210000 江蘇省南京***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于智能語音對話系統(tǒng) 數(shù)據(jù)處理方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種用于智能語音對話系統(tǒng)的語音數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)，將智能語音對話系統(tǒng)的各個業(yè)務(wù)組件分別定義為初始擴展函數(shù)，使所述初始擴展函數(shù)具有完成獨立的邏輯調(diào)用或者業(yè)務(wù)調(diào)用，并支持模塊化復(fù)用的功能，實現(xiàn)并發(fā)布所述初始擴展函數(shù)，使所述初始擴展函數(shù)在智能語音對話系統(tǒng)的函數(shù)庫中，供用戶使用，配置函數(shù)庫中的初始擴展函數(shù)，得到目標擴展函數(shù)，再采用目標擴展函數(shù)處理通話過程中用戶的語音數(shù)據(jù)，以獲取所述語音數(shù)據(jù)表征的內(nèi)容，提高智能語音對話系統(tǒng)中相應(yīng)語音數(shù)據(jù)處理的效率，提升相關(guān)會話管理的靈活性。

技術(shù)領(lǐng)域

本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域，尤其涉及一種用于智能語音對話系統(tǒng)的語音數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)。

背景技術(shù)

智能語音對話系統(tǒng)，又稱為智能會話Agent或者智能聊天系統(tǒng)。是指通過人工智能技術(shù)，以語音識別、自然語言處理和語音合成技術(shù)為基礎(chǔ)，實現(xiàn)與人類進行語言交互的系統(tǒng)。智能語音對話系統(tǒng)從應(yīng)用場景上主要分為任務(wù)導(dǎo)向型對話系統(tǒng)和非任務(wù)導(dǎo)向型對話系統(tǒng)，典型的任務(wù)導(dǎo)向型對話系統(tǒng)如智能語音助手、智能電話外呼系統(tǒng)，典型的非任務(wù)導(dǎo)向型系統(tǒng)如智能音箱、聊天機器人等。

傳統(tǒng)智能語音對話系統(tǒng)的人機交互鏈路主要包含語音識別、語義理解和語音合成三個階段。語音識別就是把用戶說的語音轉(zhuǎn)化為對應(yīng)的文字；語義理解就是從用戶表述的文字級對話上下文等信息中提取用戶的意圖并產(chǎn)生應(yīng)答的文本；語音合成是指將回應(yīng)的文本轉(zhuǎn)化為語音并播放給用戶。語音識別和語音合成技術(shù)具備較強的通用性，即智能語音對話系統(tǒng)的類型和應(yīng)用領(lǐng)域的不同、甚至交互話術(shù)模版的配置不會對其效果造成較大的影響。

傳統(tǒng)智能語音對話系統(tǒng)中的語義理解具備較強的對話領(lǐng)域和對話場景的相關(guān)性，雖然通用的自然語言理解模型從一定程度上解決了文本的意圖判定、命名實體識別等技術(shù)問題，但是依然有很多不同領(lǐng)域的用戶場景的需求，是基于傳統(tǒng)的語義理解方案無法滿足的，直接導(dǎo)致對話不智能和實際對話體驗感非常差的問題。經(jīng)驗豐富的話術(shù)配置工程師能夠在一定程度上通過話術(shù)的配置緩解對話體驗的問題，但是這在一定程度上也導(dǎo)致了單個話術(shù)的復(fù)雜程度，在與用戶進行對話過程中也更容易出現(xiàn)話術(shù)邏輯上的問題。尤其是任務(wù)導(dǎo)向型的智能語音對話系統(tǒng)，經(jīng)常需要對接外部系統(tǒng)獲取數(shù)據(jù)獲取用戶相關(guān)的數(shù)據(jù)，或者向外部系統(tǒng)發(fā)送指令幫助用戶完成實際的任務(wù)操作，傳統(tǒng)的解決方案是通過定制開發(fā)完成相關(guān)的功能，存在的問題主要是開發(fā)和集成的周期長，功能的實現(xiàn)不能滿足復(fù)雜話術(shù)配置的要求，不具備在對話過程中處理復(fù)雜業(yè)務(wù)事件的能力，同時系統(tǒng)的可擴展性和可維護性很差，系統(tǒng)的功能和話術(shù)的配置雜糅在一起，需要更新系統(tǒng)才能實現(xiàn)話術(shù)能力的更新。

一般來說，傳統(tǒng)的智能語音對話系統(tǒng)都是通過話術(shù)和話術(shù)流程實現(xiàn)對話服務(wù)的上線和交付使用，如智能電話外呼銷售系統(tǒng)，會有運營人員根據(jù)銷售場景統(tǒng)計、整理和歸納一些銷售冠軍的話術(shù)和話術(shù)流程。系統(tǒng)在外呼會話的過程中，會根據(jù)話術(shù)和話術(shù)流程的設(shè)計，進行意圖識別和會話管理。

常見的話術(shù)和話術(shù)流程的結(jié)構(gòu)化方式以及會話管理的方法包含：

基于關(guān)鍵詞的簡單交互結(jié)構(gòu)，即通過關(guān)鍵詞和關(guān)鍵短語的匹配來判定用戶的意圖，并根據(jù)用戶的意圖進行回應(yīng)，典型的實現(xiàn)方式如AIML(人工智能標記語言)。這種方式能夠基于有限的關(guān)鍵詞支持簡單的上下文理解和多倫對話能力，一般常見于早期的非任務(wù)導(dǎo)向型智能語音對話系統(tǒng)。

基于樹或者有限狀態(tài)機的結(jié)構(gòu)化模版，即將話術(shù)和話術(shù)流程建模為樹狀結(jié)構(gòu)或有限狀態(tài)機的圖結(jié)構(gòu)，相比于基于關(guān)鍵詞的簡單交互結(jié)構(gòu)，樹和有限狀態(tài)機的話術(shù)流程結(jié)構(gòu)方式能夠在對話的過程中能融合更多的會話上下文，并且能夠?qū)捴蝎@取的資源與通過其他途徑獲取用戶信息結(jié)合起來，提供更加靈活的個性化對話服務(wù)。這種方法需要根據(jù)對話場景人為定義對話流程，適用于完全由系統(tǒng)引導(dǎo)對話的任務(wù)導(dǎo)向型場景，適用于簡單的任務(wù)，缺點是難以擴展，很容易使話術(shù)流程變得復(fù)雜難以維護，輸入比較有限，話術(shù)流程的運轉(zhuǎn)靈活性較差。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于升智信息科技（南京）有限公司，未經(jīng)升智信息科技（南京）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010086219.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】