[發(fā)明專利]用于醫(yī)療場景的語音喚醒方法及系統(tǒng)在審

申請?zhí)枺?/td>	202111528745.1	申請日：	2021-12-14
公開（公告）號：	CN114187909A	公開（公告）日：	2022-03-15
發(fā)明（設(shè)計）人：	宋澤;甘津瑞;王冬冬;練勇	申請（專利權(quán)）人：	思必馳科技股份有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/02;G06F40/232
代理公司：	北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400	代理人：	黃謙;侯曉艷
地址：	215123 江蘇省蘇州市蘇***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于醫(yī)療場景語音喚醒方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實施例提供一種用于醫(yī)療場景的語音喚醒方法。該方法包括：將在醫(yī)療場景采集的音頻分別輸入至語音識別引擎和語音喚醒引擎進(jìn)行多線程處理；利用語音喚醒引擎確定的喚醒引擎狀態(tài)，對語音識別引擎確定語音識別結(jié)果進(jìn)行標(biāo)記，用于識別音頻中同聲母和/或同韻母連讀發(fā)音不清晰的喚醒詞；若檢測到語音識別結(jié)果包含喚醒詞且喚醒引擎狀態(tài)為喚醒時，對音頻進(jìn)行喚醒反饋。本發(fā)明實施例還提供一種用于醫(yī)療場景的語音喚醒系統(tǒng)。本發(fā)明實施例針對喚醒準(zhǔn)確率有較高要求的醫(yī)療場景，確保了識別的速度，具有高可靠、高可用的優(yōu)點，更適合應(yīng)用于醫(yī)療場景。

技術(shù)領(lǐng)域

本發(fā)明涉及智能領(lǐng)域，尤其涉及一種用于醫(yī)療場景的語音喚醒方法及系統(tǒng)。

背景技術(shù)

為了達(dá)到良好的語音喚醒準(zhǔn)確率，會采用大規(guī)模詞表連續(xù)語音識別策略,實現(xiàn)語音喚醒功能分為兩步，一是用常規(guī)連續(xù)語音識別方法識別出文本，二是從文本中檢測關(guān)鍵詞，若找到該關(guān)鍵詞，則認(rèn)為被喚醒，反之則不喚醒。

也可以使用基于深度學(xué)習(xí)的喚醒方法，例如，基于HMM(Hidden Markov Model，隱馬爾科夫模型)的KWS(keyword spotting，關(guān)鍵詞識別)聲學(xué)模型建模從高斯混合模型(Gaussian Mixed Model，GMM)轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)模型；第二類是在第一類的基礎(chǔ)上融入神經(jīng)網(wǎng)絡(luò)的模板匹配，采用神經(jīng)網(wǎng)絡(luò)作為特征提取器；第三類是采用端到端的方法，首先輸入語音，建立聲學(xué)模型，然后進(jìn)行特征提取，計算出各關(guān)鍵詞與非關(guān)鍵詞的后驗概率，最后以特定的窗長進(jìn)行后驗概率平滑，若平滑后的后驗概率超過一定的閾值則認(rèn)為被喚醒，反之沒有喚醒。

在實現(xiàn)本發(fā)明過程中，發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)中至少存在如下問題：

隨著AI技術(shù)的普及，醫(yī)療AI逐漸受到各大醫(yī)院的重視，但各醫(yī)院的條件通常不同，少有醫(yī)院能夠有足夠大的面積為醫(yī)療AI機器搭設(shè)完善的配套，例如相對安靜的區(qū)域環(huán)境、通暢的網(wǎng)絡(luò)等。然而現(xiàn)實中，各大醫(yī)院難以達(dá)到這種理想場景，通常都是布設(shè)一定量的醫(yī)療AI機器分散在醫(yī)院中。若突發(fā)疫情臨時的醫(yī)療環(huán)境會相對更差一些。在這種場景下，難以保證為醫(yī)療AI機器配設(shè)通暢的網(wǎng)絡(luò)。這種場景下，就需要醫(yī)療AI機器人能夠離線識別。然而，考慮到普及化醫(yī)療AI機器的配置也不會很高，無法使用上述深度模型進(jìn)行精準(zhǔn)的喚醒，如果單純使用喚醒詞判斷，醫(yī)院場景中用戶很可能是病人，身體不舒服，說話連音會使發(fā)音不清晰，進(jìn)一步提升了醫(yī)療場景下語音喚醒的難度。

發(fā)明內(nèi)容

為了至少解決現(xiàn)有技術(shù)中醫(yī)療場景下受制于環(huán)境的語音喚醒受限的問題。第一方面，本發(fā)明實施例提供一種用于醫(yī)療場景的語音喚醒方法，包括：

將在所述醫(yī)療場景采集的音頻分別輸入至語音識別引擎和語音喚醒引擎進(jìn)行多線程處理；

利用所述語音喚醒引擎確定的喚醒引擎狀態(tài)，對所述語音識別引擎確定語音識別結(jié)果進(jìn)行標(biāo)記，用于識別所述音頻中同聲母和/或同韻母連讀發(fā)音不清晰的喚醒詞；

若檢測到所述語音識別結(jié)果包含喚醒詞且所述喚醒引擎狀態(tài)為喚醒時，對所述音頻進(jìn)行喚醒反饋。

第二方面，本發(fā)明實施例提供一種用于醫(yī)療場景的語音喚醒系統(tǒng)，包括：

音頻采集程序模塊，用于將在所述醫(yī)療場景采集的音頻分別輸入至語音識別引擎和語音喚醒引擎進(jìn)行多線程處理；

引擎管理程序模塊，用于利用所述語音喚醒引擎確定的喚醒引擎狀態(tài)，對所述語音識別引擎確定語音識別結(jié)果進(jìn)行標(biāo)記，用于識別所述音頻中同聲母和/或同韻母連讀發(fā)音不清晰的喚醒詞；

喚醒程序模塊，用于若檢測到所述語音識別結(jié)果包含喚醒詞且所述喚醒引擎狀態(tài)為喚醒時，對所述音頻進(jìn)行喚醒反饋。

第三方面，提供一種電子設(shè)備，其包括：至少一個處理器，以及與所述至少一個處理器通信連接的存儲器，其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的用于醫(yī)療場景的語音喚醒方法的步驟。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司，未經(jīng)思必馳科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111528745.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種儲送一體式可循環(huán)零件上料系統(tǒng)
下一篇：一種偏心輪傳動裝置及包含其的隔膜氣泵

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】