[發(fā)明專利]聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)有效
| 申請?zhí)枺?/td> | 201910195826.0 | 申請日: | 2019-03-15 |
| 公開(公告)號: | CN110299153B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設計)人: | 富田寬基 | 申請(專利權)人: | 卡西歐計算機株式會社 |
| 主分類號: | G10L25/84 | 分類號: | G10L25/84;G10L25/78;G10L25/24;G10L25/06;G10L15/02 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 徐殿軍 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲音 區(qū)間 檢測 裝置 方法 以及 記錄 介質(zhì) | ||
本發(fā)明涉及聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)。聲音區(qū)間檢測裝置具備:處理器;以及存儲器,構成為通過執(zhí)行該存儲器中存儲的命令,使得上述處理器執(zhí)行以下的處理:從靶聲音信號檢測包括特定聲音信號的特定聲音區(qū)間,上述特定聲音信號表示在比特定時間長的時間持續(xù)發(fā)出的同一子音的音素的狀態(tài),通過從上述靶聲音信號至少除去檢測出的上述特定聲音區(qū)間,來從該靶聲音信號檢測包括語音信號的語音區(qū)間,上述語音信號表示由說話人發(fā)出的語音。
本申請以2018年3月22日申請的日本特願2018-053927和2019年2月15日申請的日本特願2019-025686為基礎來主張優(yōu)先權,將該基礎申請的內(nèi)容全部引入本申請。
技術領域
本發(fā)明涉及聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)。
背景技術
公知有一種從聲音信號檢測包括對由說話人發(fā)出的語音進行表示的語音信號的語音區(qū)間的技術。
例如,Zhang,X.-L.,Wu,J.,“Deep?Belief?Networks?Based?Voice?ActivityDetection”,IEEE?Transactions?on?Audio,Speech,and?Language?Processing,Vol.21,No.4,pp697-710,(2013)公開了一種使用DBN(Deep?Belief?Network:深度信念網(wǎng)絡)從聲音信號檢測語音區(qū)間的方法。
在使用上述的文獻所公開的方法從聲音信號檢測出語音區(qū)間時,是該聲音信號中的區(qū)間,有時包括對由說話人以外的聲源發(fā)出的噪聲聲音進行表示的噪聲聲音信號但不包含語音信號的區(qū)間被誤檢測為語音區(qū)間。
因為誤檢測語音區(qū)間,而產(chǎn)生了以下那樣的問題。例如,在從長時間錄音的聲音數(shù)據(jù)中只檢測人說話的部分而想要只對檢測出的聲音數(shù)據(jù)進行再生的情況下,如果誤檢測了語音區(qū)間,則需要對不必要的聲音數(shù)據(jù)也進行再生。另外,例如在一邊對聲音進行錄音(輸入)、一邊想要實時執(zhí)行語音的聲音識別的情況下,由于誤檢測語音區(qū)間,會導致在不是語音時也執(zhí)行聲音識別,大量消耗必要以上的資源(計算量)。
另外,在語音區(qū)間的檢測精度低的情況下,產(chǎn)生了以下那樣的問題。例如,由于檢測出的對象有時不是人聲而是噪聲、環(huán)境音,所以在重聽檢測到的聲音數(shù)據(jù)時,要使用不必要的時間。另外,例如說話的部分未被檢測而從檢測結果中缺失,導致漏聽需要進行重聽的聲音數(shù)據(jù)。并且,由于語音區(qū)間的檢測精度低,所以有時發(fā)聲區(qū)間的前端、一部分未被檢測而從檢測結果中缺失,該情況下,當將該檢測結果的聲音數(shù)據(jù)作為輸入數(shù)據(jù)進行了聲音識別時,成為識別精度降低的理由之一。
因此,要求使語音區(qū)間的檢測精度提高。
發(fā)明內(nèi)容
本發(fā)明基于上述情況,其目的在于,提供使根據(jù)聲音信號來檢測包括對由說話人發(fā)出的語音進行表示的語音信號的語音區(qū)間時的檢測精度提高的聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)。
本發(fā)明涉及一種聲音區(qū)間檢測裝置,其中,具備:處理器;以及存儲器,構成為通過執(zhí)行該存儲器中存儲的命令,使得上述處理器執(zhí)行以下的處理:從靶聲音信號檢測包括特定聲音信號的特定聲音區(qū)間,上述特定聲音信號表示在比特定時間長的時間持續(xù)發(fā)出的同一子音的音素的狀態(tài),通過從上述靶聲音信號至少除去檢測出的上述特定聲音區(qū)間,來從該靶聲音信號檢測包括語音信號的語音區(qū)間,上述語音信號表示由說話人發(fā)出的語音。
另外,本發(fā)明涉及一種由聲音區(qū)間檢測裝置執(zhí)行的方法,其中,上述聲音區(qū)間檢測裝置具備:處理器;以及存儲器,存儲由上述處理器執(zhí)行的命令,上述方法包括以下步驟:從靶聲音信號檢測包括特定聲音信號的特定聲音區(qū)間,上述特定聲音信號表示在比特定時間長的時間持續(xù)發(fā)出的同一子音的音素的狀態(tài),通過從上述靶聲音信號至少除去檢測出的上述特定聲音區(qū)間,來從該靶聲音信號檢測包括語音信號的語音區(qū)間,上述語音信號表示由說話人發(fā)出的語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡西歐計算機株式會社,未經(jīng)卡西歐計算機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910195826.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





