[發(fā)明專利]話語主題的識別有效

申請?zhí)枺?/td>	201380067309.6	申請日：	2013-12-16
公開（公告）號：	CN105027194B	公開（公告）日：	2020-10-02
發(fā)明（設(shè)計）人：	弗雷德·特勒克;弗雷德里克·約翰·喬治·德拉馬;維克拉姆·庫馬爾·貢德蒂	申請（專利權(quán)）人：	亞馬遜技術(shù)有限公司
主分類號：	G10L13/00	分類號：	G10L13/00
代理公司：	北京天昊聯(lián)合知識產(chǎn)權(quán)代理有限公司 11112	代理人：	顧麗波;李榮勝
地址：	美國內(nèi)***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	話語主題識別
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

公開了用于產(chǎn)生音頻呈現(xiàn)的元素或其他部分的標記的特征，以使得語音處理系統(tǒng)可確定用戶話語提到音頻呈現(xiàn)的哪個部分。例如，話語可包括沒有明確的前述詞的代詞。標記可用于使話語與用于處理的相應(yīng)內(nèi)容部分相關(guān)聯(lián)。標記可被提供到具有文本到語音(“TTS”)呈現(xiàn)的客戶端設(shè)備。標記可接著連同由客戶端設(shè)備采擷的用戶話語一起被提供到語音處理系統(tǒng)。可包括自動語音識別(“ASR”)模塊和/或自然語言理解(“NLU”)模塊的語音處理系統(tǒng)可基于標記來產(chǎn)生提示。提示可被提供到ASR和/或NLU模塊，以便幫助處理用戶話語的含義或意圖。

背景

語音識別系統(tǒng)包括用于從用戶接收語音輸入、確定用戶說了什么并確定用戶意思是什么的各種模塊和部件。在一些實現(xiàn)中，語音處理系統(tǒng)包括接收用戶話語的音頻輸入并產(chǎn)生話語的一個或多個可能的錄音的自動語音識別(“ASR”)模塊。語音處理系統(tǒng)也可包括接收輸入例如用戶話語的錄音并以可按照行事的方式例如通過計算機應(yīng)用來確定輸入的含義的自然語言理解(“NLU”)模塊。例如，移動電話的用戶可以講口頭命令以發(fā)起電話呼叫。口頭命令的音頻可由ASR模塊錄音，且NLU模塊可從錄音確定用戶的意圖(例如用戶想要發(fā)起電話呼叫特征)并發(fā)起電話呼叫。

文本到語音(“TTS”)系統(tǒng)使用有時被稱為語音合成的流程將文本轉(zhuǎn)換成聲音。在一般實現(xiàn)中，TTS系統(tǒng)可接收輸入，例如文本和/或語音合成標記語言(“SSM”)數(shù)據(jù)，并向用戶提供輸入的音頻呈現(xiàn)。例如，TTS系統(tǒng)可配置來向用戶“讀”文本，例如電子郵件的文本或提醒的列表。

一些系統(tǒng)合并語音識別和TTS。例如，全球定位系統(tǒng)(“GPS”)可接收關(guān)于特定地址的用戶的口頭輸入，產(chǎn)生用于行進到該地址的指示，并將指示聽覺地呈現(xiàn)給用戶。在很多情況下，用戶可接著繼續(xù)與這樣的系統(tǒng)交互，同時接收指示。在GPS系統(tǒng)提供下一指示或指示系列之后，用戶可使用任何數(shù)量的預(yù)定命令中的一個(例如，“取消路線”、“下一轉(zhuǎn)彎”)。此外，其他非口頭用戶交互可用于與聽覺地呈現(xiàn)的內(nèi)容交互。例如，可經(jīng)由允許用戶選擇的觸摸屏顯示器、經(jīng)由觸摸屏或鍵盤、要繞過的特定路線來顯示逐個轉(zhuǎn)彎指示。

附圖簡述

現(xiàn)在將參考下面的附圖描述各種創(chuàng)造性特征的實施方案。在全部附圖中，參考數(shù)字可再次用于指示在所提及的元件之間的對應(yīng)性。附圖被提供以示出本文所述的示例性實施方案且并不旨在限制本公開的范圍。

圖1是示出在語音服務(wù)、客戶端設(shè)備和用戶之間的說明性交互的說明性聯(lián)網(wǎng)環(huán)境的方框圖，其中語音服務(wù)可被實現(xiàn)。

圖2A是示出在音頻呈現(xiàn)和標識符的產(chǎn)生期間在各種模塊和數(shù)據(jù)存儲器之間的交互的說明性語音服務(wù)的方框圖。

圖2B是示出在用戶話語的處理期間在各種模塊之間的交互的說明性語音服務(wù)的方框圖。

圖3是用于管理音頻呈現(xiàn)的產(chǎn)生和傳輸并用于處理與音頻呈現(xiàn)的交互的說明性流程的流程圖。

圖4是用于呈現(xiàn)所產(chǎn)生的音頻呈現(xiàn)并用于傳輸關(guān)于音頻呈現(xiàn)的部分的用戶話語的說明性流程的流程圖。

圖5是用于處理可應(yīng)用于多個活動音頻呈現(xiàn)中的一個的話語的說明性流程的流程圖。

詳細描述

介紹

大體上來講，本公開涉及促進與音頻內(nèi)容的口頭用戶交互。語音處理系統(tǒng)可從口頭話語確定錄音和用戶意圖。用戶可發(fā)出口頭命令，且語音處理系統(tǒng)可使用自動語音識別(“ASR”)和自然語言處理(“NLU”)系統(tǒng)來確定用戶想要做什么并自動執(zhí)行相應(yīng)的行動。然而，語音處理系統(tǒng)解決模棱兩可或識別回指詞(例如代詞)主題而不向用戶提醒額外的信息可能很難。這在用戶發(fā)出不遵循預(yù)定格式的口頭命令時特別正確，該預(yù)定格式具體地識別該命令適用的主題。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于亞馬遜技術(shù)有限公司，未經(jīng)亞馬遜技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201380067309.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：包含石墨烯的組合物
下一篇：驅(qū)動機構(gòu)及具有驅(qū)動機構(gòu)的注射裝置

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】