[發明專利]語音處理系統、裝置及方法有效

申請號：	201310507989.0	申請日：	2013-10-25
公開（公告）號：	CN103594086A	公開（公告）日：	2014-02-19
發明（設計）人：	林海興;董信宗	申請（專利權）人：	鴻富錦精密工業（深圳）有限公司;鴻海精密工業股份有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	518109 廣東省深圳市***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音處理系統裝置方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及一種音頻文件或視頻文件處理裝置、系統及方法，尤其涉及一種利用語者識別（speaker?recognition）技術對音頻文件或視頻文件進行處理的裝置、系統及方法。

背景技術

隨著便攜式影像拍攝裝置的普及，用戶的計算機中存儲了越來越多的視頻文件，對于一個不熟悉視頻文件內容的人來說，其可能需要花費很多時間逐個觀看視頻文件才能找到其想要的內容。

發明內容

有鑒于此，有必要提供一種音頻文件或視頻文件處理裝置、系統及方法，其能夠對音頻文件或視頻文件進行處理并且生成相應的標簽文件，用戶可以方便的搜索到想要的內容。

一種語音處理系統，包括檔案讀取單元，所述檔案讀取單元用于選取音頻文件或視頻文件，還包括控制單元、標簽文件生成單元、界面呈現單元，所述控制單元用于控制一語音處理芯片依序對讀取的音頻文件或視頻文件中的預定時長的部份進行聲紋識別，以確定每個預定時長的部份中的發言者的身份，所述標簽文件生成單元用于生成記錄每個預定時長的部份與發言者的身份之對應關系的標簽文件，所述界面呈現單元用于生成一界面以呈現上述對應關系以及接收用戶對上述對應關系的反饋，所述控制單元還根據用戶對至少上述預定時長的部份中之一與發言者的身份的對應關系的反饋來控制所述語音處理芯片重新依序對讀取的音頻文件或視頻文件中的預定時長的部份進行聲紋識別。

一種語音處理裝置，包括處理器、存儲器及語音處理芯片，所述處理器用于執行以下操作：根據用戶的操作選取音頻文件或視頻文件；控制所述語音處理芯片依序對讀取的音頻文件或視頻文件中的預定時長的部份進行聲紋識別，以確定每個預定時長的部份中的發言者的身份；生成記錄每個預定時長的部份與發言者的身份之對應關系的標簽文件；生成一界面以呈現上述對應關系以及接收用戶對上述對應關系的反饋；以及根據用戶對至少上述預定時長的部份中之一與發言者的身份的對應關系的反饋來控制所述語音處理芯片重新依序對讀取的音頻文件或視頻文件中的預定時長的部份進行聲紋識別。

一種語音處理方法，包括：根據用戶的操作選取音頻文件或視頻文件；控制一語音處理芯片依序對讀取的音頻文件或視頻文件中的預定時長的部份進行聲紋識別，以確定每個預定時長的部份中的發言者的身份；生成記錄每個預定時長的部份與發言者的身份之對應關系的標簽文件；生成一界面以呈現上述對應關系以及接收用戶對上述對應關系的反饋；以及根據用戶對至少上述預定時長的部份中之一與發言者的身份的對應關系的反饋來控制所述語音處理芯片重新依序對讀取的音頻文件或視頻文件中的預定時長的部份進行聲紋識別。

經過本發明的語音處理裝置的處理后，音頻文件或視頻文件中的發言者的身份均被識別，且發言者的發言與不同時間段的對應關系記錄在標簽文件中，用戶可以方便的搜尋標簽文件而能夠確定某一發言者在何時發言。

附圖說明

圖1為本發明的語音處理裝置的方框圖。

圖2為本發明的語音處理裝置生成的標簽文件的示意圖。

圖3為本發明的語音處理裝置生成的界面的示意圖。

圖4為本發明的語音處理方法的流程圖。

主要元件符號說明

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于鴻富錦精密工業（深圳）有限公司;鴻海精密工業股份有限公司，未經鴻富錦精密工業（深圳）有限公司;鴻海精密工業股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310507989.0/2.html，轉載請聲明來源鉆瓜專利網。