[發明專利]聲音檢索裝置、聲音檢索方法有效
| 申請號: | 201510974271.1 | 申請日: | 2015-12-22 |
| 公開(公告)號: | CN105719643B | 公開(公告)日: | 2019-10-11 |
| 發明(設計)人: | 富田寬基 | 申請(專利權)人: | 卡西歐計算機株式會社 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 范勝杰;王立杰 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲音 檢索 裝置 方法 | ||
本發明提供聲音檢索裝置、聲音檢索方法。檢索字符串取得部取得檢索字符串。變換部將檢索字符串變換為音素串。時間長度導出部使用語速不同的多個音素的持續時間長度,導出多個與檢索字符串對應的聲音的發聲時間長度。區間指定部指定檢索對象的聲音信號中的似然取得區間。似然取得部取得表示似然取得區間為發出與檢索字符串對應的聲音的區間的似然度的似然。重復部改變由區間指定部指定的似然取得區間,重復進行區間指定部和似然取得部的處理。選擇部選擇使用與似然變高的語速對應的持續時間長度的似然取得區間。確定部根據針對所選擇的似然取得區間分別取得的似然,確定從檢索對象的聲音信號中推定發出與檢索字符串對應的聲音的推定區間。
關于本申請,主張以在2014年12月22日申請的日本國專利申請第2014-259419號為基礎的優先權,參照該基礎申請的內容,在本申請引用全部內容。
技術領域
本發明涉及一種聲音檢索裝置、聲音檢索方法。
背景技術
隨著聲音、動畫等多媒體內容的擴大/普及,要求高精度的多媒體檢索技術。其中,正在研究從聲音信號中確定發出與成為檢索對象的檢索詞(查詢)對應的聲音的位置的聲音檢索技術。
在聲音檢索中,尚未確立與使用圖像識別的字符串檢索技術相比具有充分的性能的檢索方法。因此,正在研究用于實現具有充分性能的聲音檢索的各種技術。
例如,在非專利文獻1中(Y.Zhang and J.Glass.“An inner-product lower-bound estimate for dynamic time warping”in Proc.ICASSP,2011,pp.5660-5663.),公開了高速地比較聲音信號之間的方法。由此,能夠從檢索對象的聲音信號中高速地確定與通過聲音輸入的查詢對應的位置。
在非專利文獻1公開的技術中,在檢索對象的音聲的語速和查詢輸入者的語速不同的情況下,存在檢索精度變差的問題。
發明內容
本發明是為了解決上述的課題而提出的,其目的是提供一種能夠從不同語速的聲音信號中高精度地對檢索詞進行檢索的聲音檢索裝置、聲音檢索方法。
為了實現上述目的,本發明的聲音檢索裝置具備:
記錄單元,其記錄檢索對象的聲音信號;
變換單元,其將檢索字符串變換為音素串;
時間長度取得單元,其從存儲有與音素相關的持續時間長度數據的數據庫中取得由所述變換單元進行變換而得的音素串所包含的各音素的持續時間長度;
時間長度導出單元,其根據由所述時間長度取得單元取得的持續時間長度,導出多個相互不同的語速所對應的多個時間長度作為與所述檢索字符串對應的聲音的發聲時間長度的候補;
區間指定單元,其在檢索對象的聲音信號的時間長度中,對所述多個時間長度中的各時間長度指定多個具有由所述時間長度導出單元導出的時間長度的區間即似然取得區間;
似然取得單元,其取得表示由所述區間指定單元指定的似然取得區間是發出與所述檢索字符串對應的聲音的區間的似然度的似然;以及
確定單元,其根據由所述似然取得單元針對由所述區間指定單元指定的似然取得區間分別取得的似然,確定從所述檢索對象的聲音信號中推定發出與所述檢索字符串對應的聲音的推定區間。
根據本發明,能夠從不同語速的聲音信號中能夠高精度地對檢索詞進行檢索。
附圖說明
若根據以下的附圖考慮以下的詳細記述,則能夠得到對本申請的更深的理解。
圖1是表示本發明的實施方式1的聲音檢索裝置的物理結構的圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡西歐計算機株式會社,未經卡西歐計算機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510974271.1/2.html,轉載請聲明來源鉆瓜專利網。





