[發(fā)明專利]語音識別方法、程序、語音識別裝置和機器人在審
| 申請?zhí)枺?/td> | 201810674290.6 | 申請日: | 2018-06-27 |
| 公開(公告)號: | CN109215631A | 公開(公告)日: | 2019-01-15 |
| 發(fā)明(設(shè)計)人: | 國武勇次;太田雄策 | 申請(專利權(quán))人: | 松下知識產(chǎn)權(quán)經(jīng)營株式會社 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/22;G10L15/26;G10L21/0208 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 劉靜;段承恩 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 話語 可信度 語音識別 語音識別裝置 麥克風 語音處理裝置 拾取 機器人 語音 | ||
1.一種語音識別方法,包括:
經(jīng)由麥克風接收由說話人意圖說一單詞而說出的第1話語,
所述第1話語由N個音素構(gòu)成,所述N為2以上的自然數(shù),
按構(gòu)成所述第1話語的所述N個音素,計算全部種類的音素的出現(xiàn)概率,
將在構(gòu)成所述第1話語的第1音素到第N音素依次排列具有與各所述N個音素對應的最大出現(xiàn)概率的音素而得到的音素串識別為與所述第1話語對應的第1音素串,
使構(gòu)成所述第1音素串的N個音素所具有的出現(xiàn)概率彼此相乘,由此計算第1值,
在所述第1值小于第1閾值的情況下,通過揚聲器輸出促使所述說話人再次說出所述一單詞的語音,
經(jīng)由所述麥克風接收由所述說話人意圖說所述一單詞而再次說出的第2話語,所述第2話語由M個音素構(gòu)成,所述M為2以上的自然數(shù),
按構(gòu)成所述第2話語的所述M個音素,對全部種類的音素計算出現(xiàn)概率,
將在構(gòu)成所述第2話語的第1音素到第M音素依次排列具有與各所述M個音素對應的最大出現(xiàn)概率的音素而得到的音素串識別為與所述第2話語對應的第2音素串,
使構(gòu)成所述第2音素串的M個音素所具有的出現(xiàn)概率彼此相乘,由此計算第2值,
在所述第2值小于所述第1閾值的情況下,提取在所述第1音素串中具有第2閾值以上的出現(xiàn)概率的音素和在所述第2音素串中具有所述第2閾值以上的出現(xiàn)概率的音素,
從存儲器所存儲的詞典中提取包含所述提取出的音素的單詞,所述詞典將各單詞與和所述各單詞對應的音素串進行關(guān)聯(lián),
在所述提取出的單詞為一個的情況下,將所述提取出的單詞識別為與所述一單詞對應。
2.根據(jù)權(quán)利要求1所述的語音識別方法,
在所述提取出的單詞為多個的情況下,通過所述揚聲器輸出詢問說話人是否說出了所述提取出的各單詞的語音,
經(jīng)由所述麥克風從所述說話人接收肯定或否定的回答,
將與所述肯定的回答對應的單詞識別為與所述一單詞對應。
3.一種語音識別方法,包括:
經(jīng)由麥克風接收由說話人意圖說一單詞串而說出的第1話語,
所述第1話語由N個音素構(gòu)成,所述N為2以上的自然數(shù),
計算對所述第1話語推定的單詞串的可信度X1,
t表示指定構(gòu)成所述第1話語的幀的編號,
T表示構(gòu)成所述第1話語的幀的總數(shù),
PA1(ot,st|st-1)表示在與所述第1話語的第1幀至第t-1幀的狀態(tài)st-1對應的音素串之后在第t幀出現(xiàn)任意音素而轉(zhuǎn)變到與狀態(tài)st對應的音素串的概率,ot表示根據(jù)所述第1話語得到的、用于推定所述任意音素的物理量,
所述任意音素表示全部種類的音素,
PL1(st,st-1)表示在所述第1話語中在與所述狀態(tài)st-1對應的單詞串之后在第t幀出現(xiàn)任意單詞而轉(zhuǎn)變到與所述狀態(tài)st對應的單詞串的概率,
判定所述可信度X1是否為閾值以上,
在所述可信度X1小于所述閾值的情況下,通過揚聲器輸出促使所述說話人再次說出所述一單詞串的語音,
經(jīng)由所述麥克風接收由所述說話人意圖說所述一單詞串而再次說出的第2話語,
在所述第2話語的可信度X1小于所述閾值的情況下,對根據(jù)所述第1話語和所述第2話語推定的全部單詞串計算合成可信度,
t表示指定構(gòu)成所述第1話語和所述第2話語的幀的編號,
T表示構(gòu)成所述第1話語和所述第2話語的幀的總數(shù),
PA1(ot,st|st-1)表示在與所述第1話語的第1幀至第t-1幀的狀態(tài)st-1對應的音素串之后在第t幀出現(xiàn)任意音素而轉(zhuǎn)變到與狀態(tài)st對應的音素串的概率,
ot表示根據(jù)所述第1話語得到的、用于推定所述任意音素的物理量,
所述任意音素表示全部種類的音素,
PA2(qt,st|st-1)表示在與所述第2話語的第1幀至第t-1幀的狀態(tài)st-1對應的音素串之后在第t幀出現(xiàn)任意音素而轉(zhuǎn)變到與狀態(tài)st對應的音素串的概率,
qt表示根據(jù)所述第2話語得到的、用于推定所述任意音素的物理量,
PL(st,st-1)表示在所述第1話語中在與所述狀態(tài)st-1對應的單詞串之后在第t幀出現(xiàn)任意單詞而轉(zhuǎn)變到與所述狀態(tài)st對應的單詞串的概率,
將與給予所述合成可信度X中的最大值的所述狀態(tài)st對應的單詞串識別為所述一單詞串。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于松下知識產(chǎn)權(quán)經(jīng)營株式會社,未經(jīng)松下知識產(chǎn)權(quán)經(jīng)營株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810674290.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 雷達模擬設(shè)備可信度的評估方法及評估系統(tǒng)
- 一種基于貝葉斯網(wǎng)絡(luò)的ad-hoc網(wǎng)絡(luò)節(jié)點可信度評估方法
- 一種數(shù)據(jù)資產(chǎn)可信度的評估方法
- 一種用戶可信度的計算方法及裝置
- 一種軟件可信性量化評估與設(shè)計方法
- 目標對象可信度的確定方法及裝置
- 一種企業(yè)上報數(shù)據(jù)可信度評估系統(tǒng)及其實現(xiàn)方法
- 基于隸屬度分析的目標可信度計算方法及裝置
- 基于不確定性度量的復雜裝備仿真系統(tǒng)可信度評估方法
- 資源數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)





