[發明專利]聲音檢索裝置、聲音檢索方法有效
| 申請號: | 201510096120.0 | 申請日: | 2015-03-04 |
| 公開(公告)號: | CN104899240B | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 富田寬基 | 申請(專利權)人: | 卡西歐計算機株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 曾賢偉;文志 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索詞 音素 輸出概率 檢索對象 聲音檢索裝置 區間指定部 聲音檢索 特征量 運算部 推定 運算 輸出 | ||
檢索詞取得部(111)取得檢索詞。變換部(112)將檢索詞變換為音素串。輸出概率取得部(116)針對每一幀,取得從音素串中包含的各音素輸出檢索對象的聲音信號的特征量的輸出概率。相對化運算部(130)對于輸出概率,根據對于音素串中包含的另一音素取得的輸出概率執行相對化運算。區間指定部(114)依次指定似然取得區間。似然取得部(118)取得表示似然取得區間為發出與檢索詞對應的聲音的區間的可能性的似然。確定部(120)根據似然取得部(118)取得的似然,確定被推定為從檢索對象的聲音信號中發出了與檢索詞相對應的聲音的推定區間。
相關申請的參照
關于本申請要求以2014年3月5日提交的日本專利申請特愿2014-42541號為基礎的優先權,通過本申請而援引該基礎申請的內容。
技術領域
本發明涉及聲音檢索裝置以及聲音檢索方法。
背景技術
近年,伴隨聲音、動畫等的多媒體內容的擴大/普及,要求高精度的多媒體檢索技術。關于聲音檢索,正在研究一種聲音檢索的技術,其從聲音中確定發出了與提供的檢索詞(查詢)相對應的聲音的部位。在聲音檢索中,由于聲音識別困難這樣的特有的原因,與從字符串中確定包括所希望的檢索詞的部位的字符串檢索的技術相比,還沒有確立足夠的性能的檢索方法。由此,正在研究各種用于實現足夠的性能的聲音檢索的技術。
例如,非專利文獻1(巖見圭祐、坂本渚、中川聖一,“距離つき音節n-gram索引による音聲検索語検出の距離尺度の厳密化”,情報處理學會論文誌,Vol.54,No.2,495-505,(2013.2))公開了在以聲音識別結果為基礎的聲音檢索中,考慮未知詞/識別錯誤的問題,穩健地進行聲音檢索的方法。
發明要解決的課題
但是,為了實現高精度的聲音檢索,具有各種的課題。例如,根據檢索對象的聲音信號的區間,存在如長音或接近無聲的信號的區間那樣,無論對于怎樣的檢索詞均容易被推定為發出與檢索詞相對應的聲音的區間和不是這樣的區間,從而成為誤檢測的原因。另外,根據檢索詞,在檢索詞中的僅一部分接近檢索對象的聲音信號的情況下,有時僅僅根據該一部分,錯誤地推定為檢索詞整體與聲音信號對應。
發明內容
本發明是為了解決上述那樣的課題而提出的,本發明的目的在于提供可高精度地進行聲音檢索的聲音檢索裝置以及聲音檢索方法。
用于解決課題的技術方案
為了實現上述目的,本發明的聲音檢索裝置包括:
檢索詞取得單元,其取得檢索詞;
變換單元,其將上述檢索詞取得單元取得的檢索詞變換為音素串;
輸出概率取得單元,其針對每一幀,取得從上述音素串包含的各音素輸出檢索對象的聲音信號的特征量的輸出概率;
相對化運算單元,其對于上述輸出概率取得單元針對上述各音素取得的輸出概率,根據針對上述音素串中包含的另一音素而取得的輸出概率執行相對化運算;
區間指定單元,其在上述檢索對象的聲音信號中,指定多個似然取得區間;
似然取得單元,其根據上述相對化運算單元運算后的輸出概率,取得表示上述區間指定單元所指定的似然取得區間為發出與上述檢索詞相對應的聲音的區間的可能性的似然;
確定單元,其根據上述似然取得單元針對上述區間指定單元指定的各個似然取得區間所取得的似然,確定被推定為從上述檢索對象的聲音信號中發出了與上述檢索詞對應的聲音的推定區間。
發明的效果
根據本發明,可高精度地進行聲音檢索。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡西歐計算機株式會社,未經卡西歐計算機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510096120.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:檢測興趣點POI數據準確性的方法及裝置
- 下一篇:折疊便攜爐





