[發(fā)明專利]聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)有效

申請?zhí)枺?/td>	201910195826.0	申請日：	2019-03-15
公開（公告）號：	CN110299153B	公開（公告）日：	2023-07-25
發(fā)明（設計）人：	富田寬基	申請（專利權）人：	卡西歐計算機株式會社
主分類號：	G10L25/84	分類號：	G10L25/84;G10L25/78;G10L25/24;G10L25/06;G10L15/02
代理公司：	永新專利商標代理有限公司 72002	代理人：	徐殿軍
地址：	日本***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	聲音區(qū)間檢測裝置方法以及記錄介質(zhì)
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)。聲音區(qū)間檢測裝置具備：處理器；以及存儲器，構成為通過執(zhí)行該存儲器中存儲的命令，使得上述處理器執(zhí)行以下的處理：從靶聲音信號檢測包括特定聲音信號的特定聲音區(qū)間，上述特定聲音信號表示在比特定時間長的時間持續(xù)發(fā)出的同一子音的音素的狀態(tài)，通過從上述靶聲音信號至少除去檢測出的上述特定聲音區(qū)間，來從該靶聲音信號檢測包括語音信號的語音區(qū)間，上述語音信號表示由說話人發(fā)出的語音。

本申請以2018年3月22日申請的日本特願2018－053927和2019年2月15日申請的日本特願2019－025686為基礎來主張優(yōu)先權，將該基礎申請的內(nèi)容全部引入本申請。

技術領域

本發(fā)明涉及聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)。

背景技術

公知有一種從聲音信號檢測包括對由說話人發(fā)出的語音進行表示的語音信號的語音區(qū)間的技術。

例如，Zhang,X.-L.,Wu,J.,“Deep?Belief?Networks?Based?Voice?ActivityDetection”,IEEE?Transactions?on?Audio,Speech,and?Language?Processing,Vol.21,No.4,pp697-710,(2013)公開了一種使用DBN(Deep?Belief?Network：深度信念網(wǎng)絡)從聲音信號檢測語音區(qū)間的方法。

在使用上述的文獻所公開的方法從聲音信號檢測出語音區(qū)間時，是該聲音信號中的區(qū)間，有時包括對由說話人以外的聲源發(fā)出的噪聲聲音進行表示的噪聲聲音信號但不包含語音信號的區(qū)間被誤檢測為語音區(qū)間。

因為誤檢測語音區(qū)間，而產(chǎn)生了以下那樣的問題。例如，在從長時間錄音的聲音數(shù)據(jù)中只檢測人說話的部分而想要只對檢測出的聲音數(shù)據(jù)進行再生的情況下，如果誤檢測了語音區(qū)間，則需要對不必要的聲音數(shù)據(jù)也進行再生。另外，例如在一邊對聲音進行錄音(輸入)、一邊想要實時執(zhí)行語音的聲音識別的情況下，由于誤檢測語音區(qū)間，會導致在不是語音時也執(zhí)行聲音識別，大量消耗必要以上的資源(計算量)。

另外，在語音區(qū)間的檢測精度低的情況下，產(chǎn)生了以下那樣的問題。例如，由于檢測出的對象有時不是人聲而是噪聲、環(huán)境音，所以在重聽檢測到的聲音數(shù)據(jù)時，要使用不必要的時間。另外，例如說話的部分未被檢測而從檢測結果中缺失，導致漏聽需要進行重聽的聲音數(shù)據(jù)。并且，由于語音區(qū)間的檢測精度低，所以有時發(fā)聲區(qū)間的前端、一部分未被檢測而從檢測結果中缺失，該情況下，當將該檢測結果的聲音數(shù)據(jù)作為輸入數(shù)據(jù)進行了聲音識別時，成為識別精度降低的理由之一。

因此，要求使語音區(qū)間的檢測精度提高。

發(fā)明內(nèi)容

本發(fā)明基于上述情況，其目的在于，提供使根據(jù)聲音信號來檢測包括對由說話人發(fā)出的語音進行表示的語音信號的語音區(qū)間時的檢測精度提高的聲音區(qū)間檢測裝置、聲音區(qū)間檢測方法以及記錄介質(zhì)。

本發(fā)明涉及一種聲音區(qū)間檢測裝置，其中，具備：處理器；以及存儲器，構成為通過執(zhí)行該存儲器中存儲的命令，使得上述處理器執(zhí)行以下的處理：從靶聲音信號檢測包括特定聲音信號的特定聲音區(qū)間，上述特定聲音信號表示在比特定時間長的時間持續(xù)發(fā)出的同一子音的音素的狀態(tài)，通過從上述靶聲音信號至少除去檢測出的上述特定聲音區(qū)間，來從該靶聲音信號檢測包括語音信號的語音區(qū)間，上述語音信號表示由說話人發(fā)出的語音。

另外，本發(fā)明涉及一種由聲音區(qū)間檢測裝置執(zhí)行的方法，其中，上述聲音區(qū)間檢測裝置具備：處理器；以及存儲器，存儲由上述處理器執(zhí)行的命令，上述方法包括以下步驟：從靶聲音信號檢測包括特定聲音信號的特定聲音區(qū)間，上述特定聲音信號表示在比特定時間長的時間持續(xù)發(fā)出的同一子音的音素的狀態(tài)，通過從上述靶聲音信號至少除去檢測出的上述特定聲音區(qū)間，來從該靶聲音信號檢測包括語音信號的語音區(qū)間，上述語音信號表示由說話人發(fā)出的語音。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于卡西歐計算機株式會社，未經(jīng)卡西歐計算機株式會社許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910195826.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。