[發(fā)明專利]使用一個或更多個神經(jīng)網(wǎng)絡(luò)的語音檢測結(jié)束在審
| 申請?zhí)枺?/td> | 202110533407.0 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN113689887A | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計)人: | U·維迪雅;S·巴塔查里亞;V·卡蘭迪卡;N·沃迪卡 | 申請(專利權(quán))人: | 輝達公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L15/26;G10L15/22;G10L15/05;G06N5/04;G06N3/08;G06N3/04 |
| 代理公司: | 北京市磐華律師事務(wù)所 11336 | 代理人: | 趙楠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 一個 更多 神經(jīng)網(wǎng)絡(luò) 語音 檢測 結(jié)束 | ||
1.一種處理器,包括:
一個或更多個電路,至少部分地基于預(yù)測在一個或更多個語音段中的一個或更多個字符,來指示所述一個或更多個語音段的結(jié)束。
2.根據(jù)權(quán)利要求1所述的處理器,其中所述一個或更多個電路基于從包含所述一個或更多個語音段的一個或更多個音頻信號中提取的特征,進一步將連接主義時間分類(CTC)函數(shù)與一個或更多個神經(jīng)網(wǎng)絡(luò)一起使用,以針對每個所述一個或更多個字符生成概率。
3.根據(jù)權(quán)利要求2所述的處理器,其中所述一個或更多個電路進一步使用貪婪解碼器來分析每個所述一個或更多個字符的所述概率,以針對各個時間步長生成一串字符。
4.根據(jù)權(quán)利要求3所述的處理器,其中所述一個或更多個電路進一步使用指定長度的滑動窗口來分析所述字符串,其中所述一個或更多個語音段的所述結(jié)束響應(yīng)于所述滑動窗口內(nèi)包含的空白字符的百分比而確定,所述滑動窗口被確定為滿足語音結(jié)束閾值。
5.根據(jù)權(quán)利要求4所述的處理器,其中每個所述一個或更多個字符中的所述概率被解碼直到所述一個或更多個語音段的所述結(jié)束,以便生成所述一個或更多個語音段的一個或更多個文本轉(zhuǎn)錄本。
6.根據(jù)權(quán)利要求1所述的處理器,其中所述一個或更多個語音段的轉(zhuǎn)錄本將作為一個或更多個語音可控設(shè)備的輸入而被提供。
7.一種系統(tǒng),包括:
一個或更多個處理器,至少部分地基于預(yù)測在一個或更多個語音段中的一個或更多個字符,來指示所述一個或更多個語音段的結(jié)束。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述一個或更多個處理器基于從包含所述一個或更多個語音段的一個或更多個音頻信號中提取的特征,進一步將連接主義時間分類(CTC)函數(shù)與一個或更多個神經(jīng)網(wǎng)絡(luò)一起使用,以針對每個所述一個或更多個字符生成概率。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述一個或更多個處理器進一步使用貪婪解碼器來分析每個所述一個或更多個字符的所述概率,以針對各個時間步長生成一串字符。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述一個或更多個處理器進一步使用指定長度的滑動窗口來分析所述字符串,其中所述一個或更多個語音段的所述結(jié)束響應(yīng)于所述滑動窗口內(nèi)包含的空白字符的百分比而確定,所述滑動窗口被確定為滿足語音結(jié)束閾值。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中每個所述一個或更多個字符中的所述概率被解碼直到所述一個或更多個語音段的所述結(jié)束,以便生成所述一個或更多個語音段的一個或更多個文本轉(zhuǎn)錄本。
12.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述一個或更多個語音段的轉(zhuǎn)錄本將作為一個或更多個語音可控設(shè)備的輸入而被提供。
13.一種方法,包括:
至少部分地基于預(yù)測在一個或更多個語音段內(nèi)的一個或更多個字符,來指示所述一個或更多個語音段的結(jié)束。
14.根據(jù)權(quán)利要求13所述的方法,進一步包括:
基于從包含所述一個或更多個語音段的一個或更多個音頻信號中提取的特征,將連接主義時間分類(CTC)函數(shù)與一個或更多個神經(jīng)網(wǎng)絡(luò)一起使用,以針對每個所述一個或更多個字符生成概率。
15.根據(jù)權(quán)利要求14所述的方法,還包括:
使用貪婪解碼器來分析每個所述一個或更多個字符的所述概率,以針對各個時間步長生成一串字符。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于輝達公司,未經(jīng)輝達公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110533407.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





