[發明專利]語音對話裝置、語音對話方法以及存儲介質在審
| 申請號: | 201780046486.4 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN109496332A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 廣江厚夫;岡本拓磨 | 申請(專利權)人: | 國立研究開發法人情報通信研究機構 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G06F3/16;G10L13/00;G10L15/00;G10L15/04;G10L15/10 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 溫劍;陳英俊 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言識別 語音對話 輸入語音 輸出語句 語音波形 語音合成 語言 文本 語音識別結果 語音識別部 語音輸出部 存儲介質 對話控制 語音數據 起始端 終止端 履歷 發聲 語音 輸出 檢測 受理 對話 講話 | ||
1.一種語音對話裝置,具備:
受理部,對于通過兩個以上的不同語言發聲的輸入語音,對該講話的起始端到終止端進行檢測,取得該區間的語音數據;
語言識別符取得部,取得識別所述輸入語音的語言的語言識別符;
語音識別部,根據所述輸入語音以及所述語言識別符生成作為語音識別結果的文本;
對話控制部,輸入語音識別結果的文本與語言識別符,即使語言識別符相對于上一次發生變化也維持對話的履歷,并且根據語言識別符生成不同內容的輸出語句;
語音合成部,根據輸出語句與語言識別符生成語音波形;以及
語音輸出部,輸出與所述語音合成部取得的語音波形相應的語音。
2.根據權利要求1所述的語音對話裝置,其中,
進一步具備:
對話構造信息存儲部,能夠存儲對話構造信息,所述對話構造信息是表示對話的關聯的信息并且具有一個以上的對話連接信息,所述對話連接信息具有對第一說話者的輸入語音進行抽象的第一對話行為標簽以及對第二說話者的輸出語音進行抽象的第二對話行為標簽;以及
輸出語句信息存儲部,能夠存儲具有第二對話行為標簽與一個以上的語句的輸出語音信息;
所述對話控制部具備:
第一對話行為標簽取得單元,使用所述語音識別單元取得的字符串,從所述對話構造信息存儲部中取得與該字符串相對應的第一對話行為標簽;
第二對話行為標簽取得單元,取得與所述第一對話行為標簽取得單元取得的第一對話行為標簽相對應的一個以上的第二對話行為標簽中的、一個第二對話行為標簽;
語句取得單元,從所述輸出語句信息存儲部中取得與所述第二對話行為標簽取得單元取得的第二對話行為標簽相對應的語句;以及
語句變更單元,根據所述語言識別符取得部取得的語言識別符變更所述語句取得單元取得的語句,并取得變更后的語句。
3.根據權利要求1所述的語音對話裝置,其中,
進一步具備:
對話構造信息存儲部,能夠存儲對話構造信息,所述對話構造信息是表示對話的關聯的信息并且具有一個以上的對話連接信息,所述對話連接信息具有對第一說話者的輸入語音進行抽象的第一對話行為標簽以及對第二說話者的輸出語音進行抽象的第二對話行為標簽,并且所述對話構造信息具有與第一對話行為標簽連接、且與語言識別符相對應的兩個以上的第二對話行為標簽;以及
輸出語句信息存儲部,能夠存儲具有第二對話行為標簽與一個以上的語句的輸出語音信息;
所述對話控制部具備:
第一對話行為標簽取得單元,使用所述語音識別單元取得的字符串,從所述對話構造信息存儲部中取得與該字符串相對應的第一對話行為標簽;
第二對話行為標簽取得單元,取得與所述第一對話行為標簽取得單元取得的第一對話行為標簽相對應的一個以上的第二對話行為標簽中的、與所述語言識別符取得部取得的語言識別符相對應的一個第二對話行為標簽;以及
語句取得單元,從所述輸出語句信息存儲部中取得與所述第二對話行為標簽取得單元取得的第二對話行為標簽相對應的語句。
4.一種語音對話方法,通過受理部、語言識別符取得部、語音識別部、對話控制部、語音合成部以及語音輸出部來實現,其中,具備:
受理步驟,所述受理部受理通過兩個以上的不同語言發聲的輸入語音;
語言識別符取得步驟,所述語言識別符取得部取得識別所述輸入語音的語言的語言識別符;
語音識別步驟,所述語音識別部根據所述輸入語音以及所述語言識別符生成作為語音識別結果的文本;
對話控制步驟,所述對話控制部根據所述語音識別結果以及所述語言識別符生成輸出語句;
語音合成步驟,根據所述輸出語句與所述語言識別符生成語音波形;以及
語音輸出步驟,所述語音輸出部輸出與在所述合成取得步驟中取得的語音波形相應的語音。
5.一種存儲介質,存儲有用于使計算機作為以下各部發揮功能的程序:
受理部,對于通過兩個以上的不同語言發聲的輸入語音,對該講話的起始端到終止端進行檢測,取得該區間的語音數據;
語言識別符取得部,取得識別所述輸入語音的語言的語言識別符;
語音識別部,根據所述輸入語音以及所述語言識別符生成作為語音識別結果的文本;
對話控制部,輸入語音識別結果的文本與語言識別符,即使語言識別符相對于上一次發生變化也維持對話的履歷,并且根據語言識別符生成不同內容的輸出語句;
語音合成部,根據所述輸出語句與所述語言識別符生成語音波形;以及
語音輸出部,輸出與所述語音合成部取得的語音波形相應的語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國立研究開發法人情報通信研究機構,未經國立研究開發法人情報通信研究機構許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780046486.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用戶界面菜單的情景感知
- 下一篇:一種丟幀補償方法及設備





