[發明專利]語音對話的處理方法、系統、設備和存儲介質有效
| 申請號: | 201910910610.8 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110650250B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 王黎黎;趙樺 | 申請(專利權)人: | 攜程旅游信息技術(上海)有限公司 |
| 主分類號: | H04M3/22 | 分類號: | H04M3/22;G10L15/26;G06F16/332 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 對話 處理 方法 系統 設備 存儲 介質 | ||
本發明公開了一種語音對話的處理方法、系統、設備及存儲介質,該方法包括:將語音對話雙方的媒體流錄制在不同聲道,生成一錄音文件;將錄音文件拆分成左、右聲道錄音文件;對左、右聲道錄音文件分別進行切片處理,生成若干個包含第一、第二開始時間的左、右聲道錄音切片文件;對若干個左、右聲道錄音切片文件分別進行語音識別,生成若干個包含第一、第二開始時間的左、右聲道切片文本;根據第一、第二開始時間對若干個左、右聲道切片文本進行排序,生成語音對話的對話文本文件。本發明將語音對話的音頻文件轉化成對話形式的對話文本,可以明確區分對話雙方,并且切片后的錄音切片文件語義相關度提高且長度降低,可大大提高了語音的識別率。
技術領域
本發明涉及語音的自動化處理領域,尤其涉及一種語音對話的處理方法、系統、設備和存儲介質。
背景技術
現階段很多企業對外呼通話有質量或者其它要求,然而語音形式的文件很不利于檢查,通話錄音調聽的過程需要投入大量的人力、物力及時間。為了節約成本,同時提高調聽的便利性,采用文字的方式替換傳統的錄音調聽模式會更高效。但是現有的語音識別一般是一段錄音整體識別,識別率不高,且不能區分對話雙方。
發明內容
本發明要解決的技術問題是為了克服現有技術中語音識別率不高且不能區分對話雙方的缺陷,提供一種語音對話的處理方法、系統、設備和存儲介質。
本發明是通過下述技術方案來解決上述技術問題:
本發明提供一種語音對話的處理方法,該處理方法包括如下步驟:
將語音對話雙方的媒體流錄制在不同聲道,生成一錄音文件;
將所述錄音文件拆分成左聲道錄音文件和右聲道錄音文件;
對所述左聲道錄音文件和所述右聲道錄音文件分別進行切片處理,生成若干個包含第一開始時間的左聲道錄音切片文件和若干個包含第二開始時間的右聲道錄音切片文件;
對若干個所述左聲道錄音切片文件和若干個所述右聲道錄音切片文件分別進行語音識別,生成若干個包含所述第一開始時間的左聲道切片文本和若干個包含所述第二開始時間的右聲道切片文本;
根據所述第一開始時間和所述第二開始時間對所述若干個左聲道切片文本和所述若干個右聲道切片文本進行排序,生成語音對話的對話文本文件。
較佳地,所述生成一錄音文件的步驟之后還包括:將所述錄音文件保存至一文件服務器;
所述生成語音對話的對話文本文件的步驟之后還包括:將所述對話文本文件保存至所述文件服務器;所述對話文本文件與所述錄音文件保存在同一文件夾中。
較佳地,使用ffmpeg(Fast Forward Mpeg,一種多媒體音視頻處理工具)對所述左聲道錄音文件和所述右聲道錄音文件分別進行切片處理;
使用語音識別ASR(Automatic Speech Recognition,自動語音識別)集群對若干個所述左聲道錄音切片文件和若干個所述右聲道錄音切片文件進行語音識別。
較佳地,設置若干個預設關鍵字,在所述生成若干個左聲道切片文本和若干個右聲道切片文本的步驟之后,在若干個所述左聲道切片文本和若干個所述右聲道切片文本中匹配所述預設關鍵字,若命中則在所述左聲道切片文本和/或右聲道切片文本中高亮所述預設關鍵字。
本發明還提供一種語音對話的處理系統,該處理系統包括錄音模塊、聲道拆分模塊、切片模塊、語音識別模塊和拼接模塊;
所述錄音模塊用于將語音對話雙方的媒體流錄制在不同聲道,生成一錄音文件;
所述聲道拆分模塊用于將所述錄音文件拆分成左聲道錄音文件和右聲道錄音文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程旅游信息技術(上海)有限公司,未經攜程旅游信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910910610.8/2.html,轉載請聲明來源鉆瓜專利網。





