[發(fā)明專利]語音對話的處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)有效

申請?zhí)枺?/td>	201910910610.8	申請日：	2019-09-25
公開（公告）號：	CN110650250B	公開（公告）日：	2022-03-08
發(fā)明（設(shè)計）人：	王黎黎;趙樺	申請（專利權(quán)）人：	攜程旅游信息技術(shù)（上海）有限公司
主分類號：	H04M3/22	分類號：	H04M3/22;G10L15/26;G06F16/332
代理公司：	上海弼興律師事務(wù)所 31283	代理人：	薛琦;張冉
地址：	201203 上海市浦東新***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音對話處理方法系統(tǒng) 設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種語音對話的處理方法、系統(tǒng)、設(shè)備及存儲介質(zhì)，該方法包括：將語音對話雙方的媒體流錄制在不同聲道，生成一錄音文件；將錄音文件拆分成左、右聲道錄音文件；對左、右聲道錄音文件分別進行切片處理，生成若干個包含第一、第二開始時間的左、右聲道錄音切片文件；對若干個左、右聲道錄音切片文件分別進行語音識別，生成若干個包含第一、第二開始時間的左、右聲道切片文本；根據(jù)第一、第二開始時間對若干個左、右聲道切片文本進行排序，生成語音對話的對話文本文件。本發(fā)明將語音對話的音頻文件轉(zhuǎn)化成對話形式的對話文本，可以明確區(qū)分對話雙方，并且切片后的錄音切片文件語義相關(guān)度提高且長度降低，可大大提高了語音的識別率。

技術(shù)領(lǐng)域

本發(fā)明涉及語音的自動化處理領(lǐng)域，尤其涉及一種語音對話的處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)。

背景技術(shù)

現(xiàn)階段很多企業(yè)對外呼通話有質(zhì)量或者其它要求，然而語音形式的文件很不利于檢查，通話錄音調(diào)聽的過程需要投入大量的人力、物力及時間。為了節(jié)約成本，同時提高調(diào)聽的便利性，采用文字的方式替換傳統(tǒng)的錄音調(diào)聽模式會更高效。但是現(xiàn)有的語音識別一般是一段錄音整體識別，識別率不高，且不能區(qū)分對話雙方。

發(fā)明內(nèi)容

本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中語音識別率不高且不能區(qū)分對話雙方的缺陷，提供一種語音對話的處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)。

本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題：

本發(fā)明提供一種語音對話的處理方法，該處理方法包括如下步驟：

將語音對話雙方的媒體流錄制在不同聲道，生成一錄音文件；

將所述錄音文件拆分成左聲道錄音文件和右聲道錄音文件；

對所述左聲道錄音文件和所述右聲道錄音文件分別進行切片處理，生成若干個包含第一開始時間的左聲道錄音切片文件和若干個包含第二開始時間的右聲道錄音切片文件；

對若干個所述左聲道錄音切片文件和若干個所述右聲道錄音切片文件分別進行語音識別，生成若干個包含所述第一開始時間的左聲道切片文本和若干個包含所述第二開始時間的右聲道切片文本；

根據(jù)所述第一開始時間和所述第二開始時間對所述若干個左聲道切片文本和所述若干個右聲道切片文本進行排序，生成語音對話的對話文本文件。

較佳地，所述生成一錄音文件的步驟之后還包括：將所述錄音文件保存至一文件服務(wù)器；

所述生成語音對話的對話文本文件的步驟之后還包括：將所述對話文本文件保存至所述文件服務(wù)器；所述對話文本文件與所述錄音文件保存在同一文件夾中。

較佳地，使用ffmpeg(Fast Forward Mpeg，一種多媒體音視頻處理工具)對所述左聲道錄音文件和所述右聲道錄音文件分別進行切片處理；

使用語音識別ASR(Automatic Speech Recognition，自動語音識別)集群對若干個所述左聲道錄音切片文件和若干個所述右聲道錄音切片文件進行語音識別。

較佳地，設(shè)置若干個預(yù)設(shè)關(guān)鍵字，在所述生成若干個左聲道切片文本和若干個右聲道切片文本的步驟之后，在若干個所述左聲道切片文本和若干個所述右聲道切片文本中匹配所述預(yù)設(shè)關(guān)鍵字，若命中則在所述左聲道切片文本和/或右聲道切片文本中高亮所述預(yù)設(shè)關(guān)鍵字。

本發(fā)明還提供一種語音對話的處理系統(tǒng)，該處理系統(tǒng)包括錄音模塊、聲道拆分模塊、切片模塊、語音識別模塊和拼接模塊；

所述錄音模塊用于將語音對話雙方的媒體流錄制在不同聲道，生成一錄音文件；

所述聲道拆分模塊用于將所述錄音文件拆分成左聲道錄音文件和右聲道錄音文件；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于攜程旅游信息技術(shù)（上海）有限公司，未經(jīng)攜程旅游信息技術(shù)（上海）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910910610.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：通話接聽方法、裝置、計算機設(shè)備及存儲介質(zhì)
下一篇：一種來電顯示方法、終端和計算機存儲介質(zhì)

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04M 電話通信
H04M3-00 自動或半自動交換局
H04M3-02 .呼叫分局，例如通過振鈴
H04M3-08 .電路或設(shè)備中的故障指示
H04M3-16 .在同線電話制中帶有閉塞或保密措施的
H04M3-18 .帶有減少干擾的裝置；具有減少線路故障影響的裝置
H04M3-20 .具有中斷現(xiàn)有連接的裝置；具有通話時的插入裝置

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】