[發(fā)明專利]聲音辨識模型訓練方法及系統(tǒng)與計算機可讀取介質在審

申請?zhí)枺?/td>	202011344557.9	申請日：	2020-11-26
公開（公告）號：	CN114360579A	公開（公告）日：	2022-04-15
發(fā)明（設計）人：	張鉉宗	申請（專利權）人：	緯創(chuàng)資通股份有限公司
主分類號：	G10L25/51	分類號：	G10L25/51;G10L25/30
代理公司：	北京市柳沈律師事務所 11105	代理人：	李芳華
地址：	中國臺***	國省代碼：	臺灣;71
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	聲音辨識模型訓練方法系統(tǒng) 計算機讀取介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種聲音辨識模型訓練方法，包含判斷事件音與第一參數(shù)的關系，且響應于該關系，決定第二參數(shù)，藉由第一參數(shù)與第二參數(shù)，采樣事件音以產生多個訓練音文件，以及輸入所述多個訓練音文件的至少一部分訓練聲音辨識模型，其中每一訓練音文件的長度關聯(lián)于第一參數(shù)，每兩個訓練音文件之間的時間差關聯(lián)于第二參數(shù)，且聲音辨識模型用以判斷聲音類型。

技術領域

本發(fā)明關于一種辨識模型訓練方法，特別關于一種聲音辨識模型訓練方法。

背景技術

在生活環(huán)境或工作環(huán)境中有許多不同類型的聲音，而不同的聲音可以代表不同事件的發(fā)生，因此通過聲音辨識技術可以協(xié)助判斷生活環(huán)境或工作環(huán)境的狀況，例如判斷異常事件的發(fā)生。于2017年的聲音場景和事件檢測與分類比賽(Detection andClassification of Acoustic Scenes and Events，DCASE)中，第一名者所提出的訓練音文件的取得及處理方法是將一段事件音分解為詳細特征并增加時間關聯(lián)性。然而其屬于大型深度學習模型，所使用的架構規(guī)格較高，花費也因此較高。

另外，已知針對事件音長于采樣長度的訓練音文件采樣方法，是以固定長度的采樣位移進行采樣，因此對越長的事件音進行采樣便會取得越多的訓練音文件，造成訓練音文件的重復性過高，導致訓練出的模型的辨識能力集中在特定聲音；而已知針對事件音短于采樣長度的訓練音文件采樣方法，則是以復制事件音來補足采樣長度的方式進行，如此一來所取得的訓練音文件會包含多個相同且連續(xù)的事件音，反而改變了原有的特征分布，可能導致后續(xù)辨識準確率降低。

發(fā)明內容

鑒于上述，本發(fā)明提供一種聲音辨識模型訓練方法及系統(tǒng)。

依據本發(fā)明一實施例的聲音辨識模型訓練方法，包含判斷事件音與第一參數(shù)的關系，且響應于該關系，決定第二參數(shù)，藉由第一參數(shù)與第二參數(shù)，采樣事件音以產生多個訓練音文件，以及輸入所述多個訓練音文件的至少一部分訓練聲音辨識模型，其中每一訓練音文件的長度關聯(lián)于第一參數(shù)，每兩個訓練音文件之間的時間差關聯(lián)于第二參數(shù)，且聲音辨識模型用以判斷聲音類型。

依據本發(fā)明一實施例的聲音辨識模型訓練系統(tǒng)，包含音頻擷取裝置、處理裝置及儲存裝置，其中處理裝置連接于音頻擷取裝置及儲存裝置。音頻擷取裝置用于取得事件音。處理裝置連接于音頻擷取裝置，用于執(zhí)行：判斷事件音與第一參數(shù)的關系，且響應于該關系，決定第二參數(shù)，藉由第一參數(shù)與第二參數(shù)，采樣事件音以產生多個訓練音文件，以及輸入所述多個訓練音文件的至少一部分訓練聲音辨識模型，其中每一訓練音文件的長度關聯(lián)于第一參數(shù)，每兩個訓練音文件之間的時間差關聯(lián)于第二參數(shù)，且聲音辨識模型用以判斷聲音類型。儲存裝置則用于儲存聲音辨識模型。

依據本發(fā)明一實施例的計算機可讀取介質，包含程序代碼，所述程序代碼用于藉由處理器運行以執(zhí)行：依據聲音辨識模型，判斷聲音類型，其中所述聲音辨識模型以前列實施例所述的聲音辨識模型訓練方法進行訓練。

藉由上述結構，本申請所揭示的聲音辨識模型訓練方法及系統(tǒng)，可以建立小型深度學習模型來作為聲音辨識模型。相較于大型深度學習模型，小型深度學習模型訓練復雜度較低，且初期研發(fā)成本亦較低。藉由特殊的訓練音文件前處理流程，本申請所揭示的聲音辨識模型訓練方法及系統(tǒng)所建立的聲音辨識模型以及計算機可讀取介質可以具有良好的訓練音文件質量，避免事件音的長度影響訓練結果，進而具有良好的辨識成效。

以上的關于本揭露內容的說明及以下的實施方式的說明是用以示范與解釋本發(fā)明的精神與原理，并且提供本發(fā)明的權利要求的更進一步的解釋。

附圖說明

圖1是依據本發(fā)明一實施例所示出的聲音辨識模型訓練系統(tǒng)的功能方塊圖。

圖2是依據本發(fā)明一實施例所示出的聲音辨識模型訓練方法的流程圖。

圖3是依據本發(fā)明另一實施例所示出的聲音辨識模型訓練方法的流程圖。

圖4是依據本發(fā)明一實施例所示出的事件音的采樣示意圖。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于緯創(chuàng)資通股份有限公司，未經緯創(chuàng)資通股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011344557.9/2.html，轉載請聲明來源鉆瓜專利網。