[發明專利]聲音數據檢索系統及用于該系統的程序有效

申請號：	201210465128.6	申請日：	2012-11-16
公開（公告）號：	CN103123644B	公開（公告）日：	2016-11-16
發明（設計）人：	神田直之	申請（專利權）人：	株式會社日立制作所
主分類號：	G06F17/30	分類號：	G06F17/30;G10L15/08
代理公司：	永新專利商標代理有限公司 72002	代理人：	安香子;黃劍鋒
地址：	日本***	國省代碼：	日本;JP
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	聲音數據檢索系統用于系統程序
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及檢索聲音數據的系統。

背景技術

隨著近年來的存儲設備的大容量化，能夠儲存大量的聲音數據。在以往的許多聲音數據庫中，為了管理聲音數據而賦予對聲音進行錄音的時刻的信息，并基于該信息檢索希望的聲音數據。但是，在基于時刻信息的檢索中，需要預先知道講出希望的聲音的時刻，不適合于檢索講話中包含指定的關鍵字的聲音的用途。在檢索講話中包含指定的關鍵字的聲音的情況下，需要將聲音從頭到尾進行聽取。

所以，開發了自動地檢測講出聲音數據庫中的指定的關鍵字的時刻的技術。在作為代表性的方法之一的子字檢索法中，首先通過子字識別（Sub-word?recognition）處理將聲音數據變換為子字串。這里，所謂子字，是指音素（Phoneme）或音節（Syllable）等比單詞更小的單位的名稱。如果輸入關鍵字，則將該關鍵字的子字表現與聲音數據的子字識別結果進行比較，檢測子字的一致度高的部分，由此在聲音數據中檢測講出該關鍵字的時刻（專利文獻1、非專利文獻1）。此外，在非專利文獻2所示出的字定位（word?spotting）法中，通過將音素單位的聲學模型（Acoustic?model）組合而生成該關鍵字的聲學模型，通過進行該關鍵字聲學模型與聲音數據的對照，在聲音數據中檢測講出該關鍵字的時刻。

但是，哪種技術都受到講話的變動（方言或說話者不同等）或噪聲的影響，檢索結果中包含錯誤，有時實際上沒有講出該關鍵字的時刻會出現在檢索結果中。因此，用戶為了將錯誤的檢索結果去除，需要從通過檢索得到的關鍵字的講話時刻起將聲音數據再現、通過聽取來判斷該關鍵字是否真正被講出。

還提出了用來輔助如上所述的正解/非正解判斷的技術。在專利文獻2中公開了為了通過聽取來判斷該關鍵字是否真正被講出而強調該關鍵字的檢測時刻來進行再現的技術。

專利文獻1：特開2002－221984號公報

專利文獻2：特開2005－38014號公報

非專利文獻1：巖田耕平等，“語彙フリー音聲文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証（無詞匯約束的聲音文件檢索方法中的新子字模型和子字聲學距離的有效性的驗證）”信息處理學會論文雜志，Vol.48，No.5，2007

非專利文獻2：河原達也，宗續敏彥，堂下修司，“ヒューリスティックな言語モデルを用いた會話音聲中の単語スポッティング（使用啟發式語言模型的會話聲音中的單詞定位）”，信學論.D－II，信息系統，II－信息處理，vol.78，no.7，pp.1013－1020，1995.

在專利文獻2中公開了為了通過聽取來判斷該關鍵字是否真正被講出而強調該關鍵字的檢測時刻來進行再現的技術。

但是，在用戶不能充分理解作為檢索對象的聲音數據的語言的狀況下，經常有難以通過聽取來進行如上所述的正解/非正解的判斷的問題。例如，用戶用“play”這樣的關鍵字進行檢索的結果，有時會檢測出實際上講出“pray”的時刻。在此情況下，不充分理解英語的日本人用戶有可能將其判斷為說了“play”。通過如專利文獻2提出的將該關鍵字的檢測位置強調再現的技術不能解決上述問題。

發明內容

本發明的目的是解決這樣的問題，使得在聲音數據檢索系統中能夠容易地進行檢索結果的正解/非正解的判斷。

本發明為了解決上述問題，例如采用技術方案中所記載的結構。

如果舉出本發明的聲音數據檢索系統的一例，則是一種聲音數據檢索系統，具備：輸入裝置，輸入關鍵字；音素變換部，將輸入的上述關鍵字變換為音素標音；聲音數據搜索部，基于音素標音的關鍵字，在聲音數據中檢索講出該關鍵字的部分；對照關鍵字生成部，基于音素標音的關鍵字，生成用戶有可能聽取混淆的與該關鍵字不同的對照關鍵字的集合；以及檢索結果提示部，向用戶提示來自上述聲音數據搜索部的檢索結果及來自上述對照關鍵字生成部的上述對照關鍵字。

此外，如果舉出本發明的程序的一例，則是一種用來使計算機作為聲音數據檢索系統發揮功能的程序，所述聲音數據檢索系統具備：音素變換部，將輸入的上述關鍵字變換為音素標音；聲音數據搜索部，基于音素標音的關鍵字，在聲音數據中檢索講出該關鍵字的部分；對照關鍵字生成部，基于音素標音的關鍵字，生成用戶有可能聽取混淆的與該關鍵字不同的對照關鍵字的集合；以及檢索結果提示部，向用戶提示來自上述聲音數據搜索部的檢索結果及來自上述對照關鍵字生成部的上述對照關鍵字。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于株式會社日立制作所，未經株式會社日立制作所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210465128.6/2.html，轉載請聲明來源鉆瓜專利網。