[發(fā)明專利]信息處理裝置、信息處理方法和程序在審
| 申請?zhí)枺?/td> | 201780051273.0 | 申請日: | 2017-08-17 |
| 公開(公告)號: | CN109643551A | 公開(公告)日: | 2019-04-16 |
| 發(fā)明(設(shè)計)人: | 河野真一;滝祐平 | 申請(專利權(quán))人: | 索尼公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30;G10L15/04;G10L15/22;G10L25/78 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 余剛 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音識別 語音識別結(jié)果 信息處理裝置 信息處理 語音識別系統(tǒng) 話語特征 網(wǎng)絡(luò)提供 語音信息 正常模式 語音 輸出 檢測 應(yīng)用 | ||
本發(fā)明涉及使能夠改善語音輸入的信息處理裝置、信息處理方法和程序。基于從語音信息檢測到的特定無聲時段和話語特征來選擇正常模式下的語音識別處理或特殊模式下的語音識別處理,然后輸出由所選擇的語音識別處理識別的語音識別結(jié)果以及指示通過其獲得語音識別結(jié)果的該語音識別處理的語音識別結(jié)果信息。該技術(shù)可以應(yīng)用于例如經(jīng)由網(wǎng)絡(luò)提供語音識別處理的語音識別系統(tǒng)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息處理裝置、信息處理方法和程序,并且具體涉及能夠進(jìn)行更優(yōu)選的音頻輸入的信息處理裝置、信息處理方法和程序。
背景技術(shù)
近年來,使用音頻輸入的用戶界面的利用已經(jīng)非常廣泛,并且實現(xiàn)能夠?qū)崿F(xiàn)更優(yōu)選的音頻輸入的音頻識別處理是很重要的。
通常,在音頻識別處理中,執(zhí)行提取關(guān)于音頻信息的特征量的處理,并且,例如,提取例如梅爾頻率倒頻譜系數(shù)(MFCC)的特征量。然后,基于從音頻信息提取的特征量,音頻識別引擎參考聲學(xué)模型、識別詞典和語言模型執(zhí)行音頻識別處理,并輸出從音頻識別的字符串。
例如,專利文獻(xiàn)1公開了一種音頻識別系統(tǒng),其基于在音頻識別中的針對未指定數(shù)量的用戶的用戶分類來選擇要用于音頻識別的聲學(xué)模型。
現(xiàn)有技術(shù)文獻(xiàn)
專利文獻(xiàn)
專利文獻(xiàn)1:日本專利申請公開號2000-347684
發(fā)明內(nèi)容
本發(fā)明要解決的問題
順便提及,在用于在游戲聊天、實時分發(fā)平臺等中輸入消息的應(yīng)用中,不僅可以輸入具有正常單詞和短語的句子,而且可以輸入未在識別詞典中列出的特殊字符串,例如標(biāo)識(ID)、縮寫、專有名詞或網(wǎng)絡(luò)俚語。難以對這樣的特殊字符串精確地執(zhí)行音頻識別處理,并且難以執(zhí)行優(yōu)選的音頻輸入。
本發(fā)明是針對這種情況而提出的,并且其旨在使執(zhí)行更優(yōu)選的音頻輸入成為可能。
問題的解決方案
本發(fā)明的一個方面的信息處理裝置包括:話語特征檢測單元,獲取通過用戶的話語獲得的音頻信息,并從音頻信息檢測話語的特征;特定無聲時段檢測單元,在檢測其中音頻信息包括音頻的話語部分的處理中,檢測作為未被確定為無聲時段的特定短無聲時段的特定無聲時段;選擇單元,基于已經(jīng)由話語特征檢測單元從音頻信息檢測到的話語的特征和已經(jīng)由特定無聲時段檢測單元從音頻信息檢測到的特定無聲時段,來選擇要對音頻信息執(zhí)行的音頻識別處理;以及輸出處理單元,將通過已經(jīng)由選擇單元選擇的音頻識別處理而識別的音頻識別結(jié)果與音頻識別結(jié)果信息一起輸出,音頻識別結(jié)果信息指示已經(jīng)獲得音頻識別結(jié)果的音頻識別處理。
本公開的一個方面的信息處理方法或程序包括以下步驟:獲取通過用戶的話語獲得的音頻信息,并從音頻信息中檢測話語的特征;在檢測其中音頻信息包括音頻的話語部分的處理中,檢測作為未被確定為無聲時段的特定短無聲時段的特定無聲時段;基于已經(jīng)從音頻信息檢測到的話語的特征和已經(jīng)從音頻信息檢測到的特定無聲時段,選擇要對音頻信息執(zhí)行的音頻識別處理;以及將通過已經(jīng)選擇的音頻識別處理而識別的音頻識別結(jié)果與音頻識別結(jié)果信息一起輸出,音頻識別結(jié)果信息指示已經(jīng)獲得音頻識別結(jié)果的音頻識別處理。
在本公開的一個方面中,在獲取由用戶的話語獲得的音頻信息、從語音信息檢測話語的特征以及檢測其中音頻信息包括音頻的話語部分的處理中,檢測作為未被確定為無聲時段的特定短無聲時段的特定無聲時段。然后,基于已經(jīng)從音頻信息檢測到的話語的特征和已經(jīng)從音頻信息檢測到的特定無聲時段選擇要對音頻信息執(zhí)行的音頻識別處理,并且將通過音頻識別處理識別的音頻識別結(jié)果與指示已經(jīng)被執(zhí)行的音頻識別處理的音頻識別結(jié)果信息一起輸出。
本發(fā)明的效果
根據(jù)本公開的一個方面,可以執(zhí)行更優(yōu)選的音頻輸入。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索尼公司,未經(jīng)索尼公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780051273.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





