[發(fā)明專利]實現(xiàn)語音年齡和/或性別識別服務的方法、系統(tǒng)及介質在審
| 申請?zhí)枺?/td> | 202011591501.3 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN113192510A | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設計)人: | 楊學銳;晏超 | 申請(專利權)人: | 云從科技集團股份有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26 |
| 代理公司: | 北京瀚仁知識產(chǎn)權代理事務所(普通合伙) 11482 | 代理人: | 宋寶庫;郭婷 |
| 地址: | 511457 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實現(xiàn) 語音 年齡 性別 識別 服務 方法 系統(tǒng) 介質 | ||
1.一種實現(xiàn)語音年齡和/或性別識別服務的方法,其特征在于,包括:
接收經(jīng)GRPC定義的客戶端發(fā)送的經(jīng)過序列化的語音識別請求,其中,所述語音識別請求包括通過語音識別年齡和/或性別;
對所述語音識別請求進行反序列化操作并解析所述語音識別請求中的音頻數(shù)據(jù)和參數(shù)字段信息;
根據(jù)所述參數(shù)字段信息選擇對應的語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型,并通過所述語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型對所述音頻數(shù)據(jù)及其上下文音頻信息進行解碼獲得相應的年齡和/或性別的識別結果;
返回所述識別結果到所述客戶端。
2.如權利要求1所述的方法,其特征在于,
所述GRPC定義的具體過程包括:
根據(jù)GRPC的ProtoBuf的結構,預先定義與語音年齡和/或性別識別服務模式、音頻格式、待識別的語音音頻數(shù)據(jù)、采樣率、以及音頻長度相關的參數(shù)字段信息,以獲得定義好的GRPC的ProtoBuf協(xié)議;
根據(jù)所述ProtoBuf協(xié)議編譯生成進行GRPC語音年齡和/或性別識別服務的客戶端與服務端的GRPC服務接口代碼,以便進行客戶端和服務端之間的遠程調用;
其中,具有所述GRPC服務接口代碼的客戶端為經(jīng)GRPC定義的客戶端;
其中,具有所述GRPC服務接口代碼的服務端為經(jīng)GRPC定義的服務端。
3.如權利要求2所述的方法,其特征在于,
所述經(jīng)過序列化的語音識別請求為由所述經(jīng)GRPC定義的客戶端預先選擇的語音和/或性別服務模式所發(fā)送來的遠程請求;
所述遠程請求中包括:利用ProtoBuf結構序列化的待識別的語音音頻數(shù)據(jù)和音頻參數(shù)字段信息;
所述“對所述語音識別請求進行反序列化操作并解析所述語音識別請求中的音頻數(shù)據(jù)和參數(shù)字段信息”,具體包括:
通過ProtoBuf結構對所述語音識別請求進行反序列化操作得到待識別的所述語音音頻數(shù)據(jù)和所述音頻參數(shù)字段信息;其中,所述音頻參數(shù)字段信息至少包括:音頻格式、采樣率和語音年齡和/或性別識別服務模式的字段信息;
基于所述音頻格式,對相應的待識別的所述語音音頻數(shù)據(jù)進行解析,以將待識別的所述語音音頻數(shù)據(jù)統(tǒng)一轉換成PCM數(shù)據(jù)格式的音頻數(shù)據(jù);
所述“根據(jù)所述參數(shù)字段信息選擇對應的語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型”,具體包括:
根據(jù)所述語音年齡和/或性別識別服務模式確定需要選擇的語音識別模型的類型為語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型;
根據(jù)所述音頻格式和所述采樣率調用對應支持識別所述音頻格式和所述采樣率的語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型;
所述“通過所述語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型對所述音頻數(shù)據(jù)進行解碼獲得相應的年齡和/或性別的識別結果”具體包括:
利用對應支持識別所述音頻格式和所述采樣率的語音年齡和/或性別識別深度神經(jīng)網(wǎng)絡模型對所述轉換成PCM數(shù)據(jù)格式的音頻數(shù)據(jù)及其上下文音頻信息進行解碼,以得到相應的年齡和/或性別的識別結果;
所述“返回所述識別結果到所述客戶端”具體包括:
將所述識別結果序列化后發(fā)送回所述經(jīng)GRPC定義的客戶端。
4.如權利要求3所述的方法,其特征在于,將所述識別結果序列化后發(fā)送回所述經(jīng)GRPC定義的客戶端,具體包括:
通過ProtoBuf結構對所述識別結果進行序列化編碼壓縮;以及,
根據(jù)所述語音年齡和/或性別識別服務模式調用相應的結果返回邏輯,以將序列化編碼壓縮后的所述識別結果發(fā)送回所述經(jīng)GRPC定義的客戶端;
其中,所述語音年齡和/或性別識別服務模式包括:實時語音年齡和/或性別識別的雙向流式和一句話語音年齡和/或性別識別的非流式;
其中,所述結果返回邏輯包括:針對所述非流式為一次性返回識別結果,針對所述雙向流式為分段返回每段的識別結果、并在待識別的語音音頻數(shù)據(jù)全部傳輸完畢后返回最終識別結果;
其中,返回最終識別結果包括相應的年齡和/或性別的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云從科技集團股份有限公司,未經(jīng)云從科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011591501.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 互動業(yè)務終端、實現(xiàn)系統(tǒng)及實現(xiàn)方法
- 街景地圖的實現(xiàn)方法和實現(xiàn)系統(tǒng)
- 游戲實現(xiàn)系統(tǒng)和游戲實現(xiàn)方法
- 圖像實現(xiàn)裝置及其圖像實現(xiàn)方法
- 增強現(xiàn)實的實現(xiàn)方法以及實現(xiàn)裝置
- 軟件架構的實現(xiàn)方法和實現(xiàn)平臺
- 數(shù)值預報的實現(xiàn)方法及實現(xiàn)系統(tǒng)
- 空調及其冬眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 空調及其睡眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 輸入設備實現(xiàn)方法及其實現(xiàn)裝置





