[發明專利]語音識別裝置和語音識別方法有效
| 申請號: | 201711236753.2 | 申請日: | 2017-11-30 |
| 公開(公告)號: | CN108133709B | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 常盤博之;湯本健太;野中修 | 申請(專利權)人: | 奧林巴斯株式會社 |
| 主分類號: | G10L15/25 | 分類號: | G10L15/25;G10L15/08;G10L15/26 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 黃綸偉;朱麗娟 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 裝置 方法 | ||
本發明提供語音識別裝置和語音識別方法。一個實施方式的語音識別裝置具有:取得部,其取得對人發出的語音進行錄音而得到的音頻流、以及拍攝所述人的至少嘴部而得到的視頻流;語音識別部,其根據所述音頻流,識別包含所述人發出的輔音在內的語音;輔音估計部,其根據所述視頻流的所述人的嘴部的形狀,估計所述人發出的輔音;以及輔音確定部,其根據由所述輔音估計部估計出的輔音和由所述語音識別部識別出的輔音,來確定輔音。
技術領域
本發明涉及語音識別裝置和語音識別方法。
背景技術
近年來,識別語音并生成文本數據的語音識別裝置已經得到實用化。在識別語音并生成文本數據的情況下,語音識別裝置有可能產生錯誤識別。例如,如日本特表2005-507536號公報所記載,公開了修正所識別的文本的技術。
發明內容
根據日本特表2005-507536號公報所記載的技術,修正由于錯誤識別而產生的文本的修正員通過閱讀文本文件并且聽取語音,修正被估計為具有缺陷或者不適當的文本段。即,由于需要通過手動作業修正文本,因此存在花費功夫的課題。
本發明的目的在于提供一種能夠簡單且高精度地識別語音的語音識別裝置和語音識別方法。
一個實施方式的語音識別裝置具有:取得部,其取得對人發出的語音進行錄音而得到的音頻流、以及拍攝所述人的至少嘴部而得到的視頻流;語音識別部,其根據所述音頻流,識別包含所述人發出的輔音在內的語音;輔音估計部,其根據所述視頻流的所述人的嘴部的形狀,估計所述人發出的輔音;以及輔音確定部,其根據由所述輔音估計部估計出的輔音和由所述語音識別部識別出的輔音,來確定輔音。
根據本發明,可提供一種能夠簡單且高精度地識別語音的語音識別裝置和語音識別方法。
附圖說明
圖1是用于說明一個實施方式的語音識別裝置的結構例的說明圖。
圖2是用于說明一個實施方式的語音識別裝置的拍攝部和語音收集部的配置的例子的說明圖。
圖3是用于說明一個實施方式的語音識別裝置的動作的例子的說明圖。
圖4是用于說明一個實施方式的語音識別裝置的語音識別處理的例子的說明圖。
圖5是用于說明確定一個實施方式的語音識別裝置的輔音發聲幀的處理的例子的說明圖。
圖6是用于說明一個實施方式的語音識別裝置的輔音確定處理的例子的說明圖。
圖7是用于說明一個實施方式的語音識別裝置中的項目列表的例子的說明圖。
圖8是用于說明由一個實施方式的語音識別裝置顯示的按項目語音識別畫面的例子的說明圖。
圖9是用于說明一個實施方式的語音識別裝置的按項目語音識別處理的例子的說明圖。
圖10是用于說明一個實施方式的語音識別裝置的引導顯示的例子的說明圖。
標號說明
1:語音識別裝置;11:CPU;12:ROM;13:RAM;14:非易失性存儲器;15:通信部;16:拍攝部;17:語音收集部;18:顯示部;19:語音再現部;20:鐘表部;21:姿勢傳感器;22:操作部。
具體實施方式
以下,參照附圖對一個實施方式的語音識別裝置和語音識別方法詳細地進行說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奧林巴斯株式會社,未經奧林巴斯株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711236753.2/2.html,轉載請聲明來源鉆瓜專利網。





