[發(fā)明專利]發(fā)音者檢索裝置、發(fā)音者檢索方法以及發(fā)音者檢索程序有效
| 申請?zhí)枺?/td> | 201780088429.2 | 申請日: | 2017-09-25 |
| 公開(公告)號: | CN110431546B | 公開(公告)日: | 2023-10-13 |
| 發(fā)明(設(shè)計)人: | 森纮一郎;鈴木優(yōu);大谷大和;森田真弘 | 申請(專利權(quán))人: | 株式會社東芝;東芝數(shù)字解決方案株式會社 |
| 主分類號: | G06F16/63 | 分類號: | G06F16/63;G06F16/683 |
| 代理公司: | 永新專利商標(biāo)代理有限公司 72002 | 代理人: | 楊謙 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 發(fā)音 檢索 裝置 方法 以及 程序 | ||
發(fā)音者檢索裝置(10)具備第一變換部(14B)、受理部(14C)和檢索部(14D)。第一變換部(14B)使用用于將表示聲質(zhì)特征的得分向量變換成聲學(xué)模型的第一變換模型(12B)的逆變換模型,將預(yù)先登記的聲學(xué)模型變換成得分向量,并與發(fā)音者ID建立對應(yīng)地登記在得分管理信息(12C)中。受理部(14C)受理得分向量的輸入。檢索部(14D)從得分管理信息(12C)中檢索與受理的得分向量相似的發(fā)音者ID。
技術(shù)領(lǐng)域
本發(fā)明的實施方式涉及發(fā)音者檢索裝置、發(fā)音者檢索方法以及發(fā)音者檢索程序。
背景技術(shù)
近年來,由于語音合成技術(shù)的發(fā)展,能從文本制作高品質(zhì)的合成音。特別是已知通過使用采用隱馬爾可夫模型(HMM)的語音合成技術(shù),能夠操作聲學(xué)模型來靈活地控制合成音。此外還提出了一種技術(shù),該技術(shù)從語音中提取聲音特征量,求出輸入語音的聲音特征量與語音數(shù)據(jù)庫的各發(fā)音者的聲音特征量的相似度,檢索出與輸入語音相比聲質(zhì)的相似度高的發(fā)音者。通過使用該技術(shù),從期望的發(fā)音者的語音中提取聲音特征量,并求出聲音特征量間的相似度,由此能夠從大規(guī)模的語音數(shù)據(jù)庫中檢索與期望的發(fā)音者的聲質(zhì)近似的發(fā)音者候補。
但是,在以前的方法中需要事先準(zhǔn)備用戶期望的發(fā)音者的語音作為查詢。因此,在以前存在若不能準(zhǔn)備期望的發(fā)音者的語音則無法檢索相似發(fā)音者的問題。即,在以前難以檢索聲質(zhì)相似度高的發(fā)音者。
現(xiàn)有技術(shù)文獻:
專利文獻:
專利文獻1:WO2009/110613號公報
非專利文獻:
非專利文獻1:Yusuke Ijima et al.Similar Speaker Selection TechniqueBased on Distance Metric Learning Using Highly Correlated Acoustic Featureswith Perceptual Voice Quality Similarity,IEICE Trans.INF.&SYST.,Vol.E98-D,No.1(2015)
發(fā)明內(nèi)容
發(fā)明所要解決的問題
本發(fā)明所要解決的問題在于,提供一種能夠檢索聲質(zhì)相似度高的發(fā)音者的發(fā)音者檢索裝置、發(fā)音者檢索方法以及發(fā)音者檢索程序。
用于解決問題的手段
實施方式的發(fā)音者檢索裝置具備第一變換部、受理部和檢索部。第一變換部使用第一變換模型的逆變換模型,將預(yù)先登記的聲學(xué)模型變換成得分向量,并與發(fā)音者識別信息建立對應(yīng)地登記在得分管理信息中,所述第一變換模型用于將表示聲質(zhì)特征的得分向量變換成聲學(xué)模型。受理部受理得分向量的輸入。檢索部從得分管理信息中檢索與受理的得分向量相似的發(fā)音者識別信息。
附圖說明
圖1是示出發(fā)音者檢索裝置的一例的圖。
圖2是示出發(fā)音者管理信息的數(shù)據(jù)結(jié)構(gòu)的一例的模式圖。
圖3是示出得分向量的一例的模式圖。
圖4是示出得分管理信息的數(shù)據(jù)結(jié)構(gòu)的一例的模式圖。
圖5是示出輸入畫面的一例的模式圖。
圖6是示出顯示畫面的一例的模式圖。
圖7是示出檢索處理的過程的一例的流程圖。
圖8是示出發(fā)音者檢索處理的過程的一例的流程圖。
圖9是示出發(fā)音者檢索裝置的一例的圖。
圖10是示出語音管理信息的數(shù)據(jù)結(jié)構(gòu)的一例的模式圖。
圖11是示出得分管理信息的數(shù)據(jù)結(jié)構(gòu)的一例的模式圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社東芝;東芝數(shù)字解決方案株式會社,未經(jīng)株式會社東芝;東芝數(shù)字解決方案株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780088429.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





