[發明專利]聲音檢索裝置、聲音檢索方法有效
| 申請號: | 201510974271.1 | 申請日: | 2015-12-22 |
| 公開(公告)號: | CN105719643B | 公開(公告)日: | 2019-10-11 |
| 發明(設計)人: | 富田寬基 | 申請(專利權)人: | 卡西歐計算機株式會社 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 范勝杰;王立杰 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲音 檢索 裝置 方法 | ||
1.一種聲音檢索裝置,其特征在于,具備:
記錄單元,其記錄檢索對象的聲音信號;
變換單元,其將檢索字符串變換為音素串;
時間長度取得單元,其從存儲有與音素相關的持續時間長度數據的數據庫中取得由所述變換單元進行變換而得的音素串所包含的各音素的持續時間長度;
時間長度導出單元,其根據由所述時間長度取得單元取得的持續時間長度,導出多個相互不同的語速所對應的多個時間長度作為與所述檢索字符串對應的聲音的發聲時間長度的候補;
區間指定單元,其在檢索對象的聲音信號的時間長度中,對所述多個時間長度分別指定多個具有由所述時間長度導出單元導出的時間長度的區間即似然取得區間;
似然取得單元,其取得表示由所述區間指定單元指定的似然取得區間是發出與所述檢索字符串對應的聲音的區間的似然度的似然;以及
確定單元,其根據由所述似然取得單元針對由所述區間指定單元指定的似然取得區間分別取得的似然,確定從所述檢索對象的聲音信號中推定發出與所述檢索字符串對應的聲音的推定區間。
2.根據權利要求1所述的聲音檢索裝置,其特征在于,
該聲音檢索裝置還具備:選擇單元,其根據由所述似然取得單元取得的似然,從所述多個時間長度中選擇一個時間長度,
所述確定單元根據針對具有所述選擇的時間長度的似然取得區間取得的似然,從所述選擇的時間長度的似然取得區間中確定所述推定區間。
3.根據權利要求2所述的聲音檢索裝置,其特征在于,
所述選擇單元針對所述多個時間長度分別取得按照似然從高到低的順序相加預定數量的針對相同時間長度的似然取得區間取得的似然而得的相加值,并對該取得的相加值進行比較,從所述多個時間長度中選擇相加值最大的時間長度。
4.根據權利要求3所述的聲音檢索裝置,其特征在于,
所述選擇單元通過以似然越高乘上越大的加權系數的方式將針對相同時間長度的似然取得區間取得的似然相加來取得上述相加值。
5.根據權利要求1至4中的任一項所述的聲音檢索裝置,其特征在于,
該聲音檢索裝置還具備:
特征量計算單元,其針對比較聲音信號和音素模型的區間即每個幀計算出由所述區間指定單元指定的似然取得區間中的所述檢索對象的聲音信號的特征量;以及
輸出概率取得單元,其對每個幀取得從所述音素串包含的各音素輸出所述檢索對象的聲音信號的特征量的輸出概率,
所述似然取得單元相加將針對由所述區間指定單元指定的似然取得區間所包含的每個幀取得的輸出概率取對數而得的值,來取得該似然取得區間的所述似然。
6.根據權利要求5所述的聲音檢索裝置,其特征在于,
該聲音檢索裝置還具備:輸出概率存儲單元,其對所述檢索對象的聲音信號所包含的每個幀,將聲學模型的音素的各狀態與輸出概率對應起來進行存儲,其中,該輸出概率是從根據聲學模型生成的音素的各狀態輸出所述檢索對象的聲音信號的特征量的概率,
在所述變換單元將所述檢索字符串變換為所述音素串時,所述輸出概率取得單元從存儲在所述輸出概率存儲單元中的輸出概率中,針對所述似然取得區間所包含的每個幀取得與該音素串所包含的音素的各狀態對應起來存儲的輸出概率。
7.根據權利要求6所述的聲音檢索裝置,其特征在于,
該聲音檢索裝置還具備:置換單元,其將由所述輸出概率取得單元針對每個幀取得的輸出概率分別置換為該幀、該幀之前的N1個幀以及該幀之后的N2個幀中最大的輸出概率,
所述N1和N2是包含0的自然數,N1和N2中的任一個不是0,
所述似然取得單元根據基于所述置換單元的置換后的輸出概率,取得由所述區間指定單元指定的似然取得區間的所述似然。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡西歐計算機株式會社,未經卡西歐計算機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510974271.1/1.html,轉載請聲明來源鉆瓜專利網。





