[發(fā)明專利]語音對話的處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201910910610.8 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110650250B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計)人: | 王黎黎;趙樺 | 申請(專利權(quán))人: | 攜程旅游信息技術(shù)(上海)有限公司 |
| 主分類號: | H04M3/22 | 分類號: | H04M3/22;G10L15/26;G06F16/332 |
| 代理公司: | 上海弼興律師事務(wù)所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 對話 處理 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種語音對話的處理方法、系統(tǒng)、設(shè)備及存儲介質(zhì),該方法包括:將語音對話雙方的媒體流錄制在不同聲道,生成一錄音文件;將錄音文件拆分成左、右聲道錄音文件;對左、右聲道錄音文件分別進行切片處理,生成若干個包含第一、第二開始時間的左、右聲道錄音切片文件;對若干個左、右聲道錄音切片文件分別進行語音識別,生成若干個包含第一、第二開始時間的左、右聲道切片文本;根據(jù)第一、第二開始時間對若干個左、右聲道切片文本進行排序,生成語音對話的對話文本文件。本發(fā)明將語音對話的音頻文件轉(zhuǎn)化成對話形式的對話文本,可以明確區(qū)分對話雙方,并且切片后的錄音切片文件語義相關(guān)度提高且長度降低,可大大提高了語音的識別率。
技術(shù)領(lǐng)域
本發(fā)明涉及語音的自動化處理領(lǐng)域,尤其涉及一種語音對話的處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)。
背景技術(shù)
現(xiàn)階段很多企業(yè)對外呼通話有質(zhì)量或者其它要求,然而語音形式的文件很不利于檢查,通話錄音調(diào)聽的過程需要投入大量的人力、物力及時間。為了節(jié)約成本,同時提高調(diào)聽的便利性,采用文字的方式替換傳統(tǒng)的錄音調(diào)聽模式會更高效。但是現(xiàn)有的語音識別一般是一段錄音整體識別,識別率不高,且不能區(qū)分對話雙方。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中語音識別率不高且不能區(qū)分對話雙方的缺陷,提供一種語音對話的處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)。
本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題:
本發(fā)明提供一種語音對話的處理方法,該處理方法包括如下步驟:
將語音對話雙方的媒體流錄制在不同聲道,生成一錄音文件;
將所述錄音文件拆分成左聲道錄音文件和右聲道錄音文件;
對所述左聲道錄音文件和所述右聲道錄音文件分別進行切片處理,生成若干個包含第一開始時間的左聲道錄音切片文件和若干個包含第二開始時間的右聲道錄音切片文件;
對若干個所述左聲道錄音切片文件和若干個所述右聲道錄音切片文件分別進行語音識別,生成若干個包含所述第一開始時間的左聲道切片文本和若干個包含所述第二開始時間的右聲道切片文本;
根據(jù)所述第一開始時間和所述第二開始時間對所述若干個左聲道切片文本和所述若干個右聲道切片文本進行排序,生成語音對話的對話文本文件。
較佳地,所述生成一錄音文件的步驟之后還包括:將所述錄音文件保存至一文件服務(wù)器;
所述生成語音對話的對話文本文件的步驟之后還包括:將所述對話文本文件保存至所述文件服務(wù)器;所述對話文本文件與所述錄音文件保存在同一文件夾中。
較佳地,使用ffmpeg(Fast Forward Mpeg,一種多媒體音視頻處理工具)對所述左聲道錄音文件和所述右聲道錄音文件分別進行切片處理;
使用語音識別ASR(Automatic Speech Recognition,自動語音識別)集群對若干個所述左聲道錄音切片文件和若干個所述右聲道錄音切片文件進行語音識別。
較佳地,設(shè)置若干個預(yù)設(shè)關(guān)鍵字,在所述生成若干個左聲道切片文本和若干個右聲道切片文本的步驟之后,在若干個所述左聲道切片文本和若干個所述右聲道切片文本中匹配所述預(yù)設(shè)關(guān)鍵字,若命中則在所述左聲道切片文本和/或右聲道切片文本中高亮所述預(yù)設(shè)關(guān)鍵字。
本發(fā)明還提供一種語音對話的處理系統(tǒng),該處理系統(tǒng)包括錄音模塊、聲道拆分模塊、切片模塊、語音識別模塊和拼接模塊;
所述錄音模塊用于將語音對話雙方的媒體流錄制在不同聲道,生成一錄音文件;
所述聲道拆分模塊用于將所述錄音文件拆分成左聲道錄音文件和右聲道錄音文件;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于攜程旅游信息技術(shù)(上海)有限公司,未經(jīng)攜程旅游信息技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910910610.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





