[發(fā)明專利]用于醫(yī)療場景的語音喚醒方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202111528745.1 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN114187909A | 公開(公告)日: | 2022-03-15 |
| 發(fā)明(設(shè)計)人: | 宋澤;甘津瑞;王冬冬;練勇 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/02;G06F40/232 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;侯曉艷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 醫(yī)療 場景 語音 喚醒 方法 系統(tǒng) | ||
本發(fā)明實施例提供一種用于醫(yī)療場景的語音喚醒方法。該方法包括:將在醫(yī)療場景采集的音頻分別輸入至語音識別引擎和語音喚醒引擎進(jìn)行多線程處理;利用語音喚醒引擎確定的喚醒引擎狀態(tài),對語音識別引擎確定語音識別結(jié)果進(jìn)行標(biāo)記,用于識別音頻中同聲母和/或同韻母連讀發(fā)音不清晰的喚醒詞;若檢測到語音識別結(jié)果包含喚醒詞且喚醒引擎狀態(tài)為喚醒時,對音頻進(jìn)行喚醒反饋。本發(fā)明實施例還提供一種用于醫(yī)療場景的語音喚醒系統(tǒng)。本發(fā)明實施例針對喚醒準(zhǔn)確率有較高要求的醫(yī)療場景,確保了識別的速度,具有高可靠、高可用的優(yōu)點,更適合應(yīng)用于醫(yī)療場景。
技術(shù)領(lǐng)域
本發(fā)明涉及智能領(lǐng)域,尤其涉及一種用于醫(yī)療場景的語音喚醒方法及系統(tǒng)。
背景技術(shù)
為了達(dá)到良好的語音喚醒準(zhǔn)確率,會采用大規(guī)模詞表連續(xù)語音識別策略,實現(xiàn)語音喚醒功能分為兩步,一是用常規(guī)連續(xù)語音識別方法識別出文本,二是從文本中檢測關(guān)鍵詞,若找到該關(guān)鍵詞,則認(rèn)為被喚醒,反之則不喚醒。
也可以使用基于深度學(xué)習(xí)的喚醒方法,例如,基于HMM(Hidden Markov Model,隱馬爾科夫模型)的KWS(keyword spotting,關(guān)鍵詞識別)聲學(xué)模型建模從高斯混合模型(Gaussian Mixed Model,GMM)轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)模型;第二類是在第一類的基礎(chǔ)上融入神經(jīng)網(wǎng)絡(luò)的模板匹配,采用神經(jīng)網(wǎng)絡(luò)作為特征提取器;第三類是采用端到端的方法,首先輸入語音,建立聲學(xué)模型,然后進(jìn)行特征提取,計算出各關(guān)鍵詞與非關(guān)鍵詞的后驗概率,最后以特定的窗長進(jìn)行后驗概率平滑,若平滑后的后驗概率超過一定的閾值則認(rèn)為被喚醒,反之沒有喚醒。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)中至少存在如下問題:
隨著AI技術(shù)的普及,醫(yī)療AI逐漸受到各大醫(yī)院的重視,但各醫(yī)院的條件通常不同,少有醫(yī)院能夠有足夠大的面積為醫(yī)療AI機器搭設(shè)完善的配套,例如相對安靜的區(qū)域環(huán)境、通暢的網(wǎng)絡(luò)等。然而現(xiàn)實中,各大醫(yī)院難以達(dá)到這種理想場景,通常都是布設(shè)一定量的醫(yī)療AI機器分散在醫(yī)院中。若突發(fā)疫情臨時的醫(yī)療環(huán)境會相對更差一些。在這種場景下,難以保證為醫(yī)療AI機器配設(shè)通暢的網(wǎng)絡(luò)。這種場景下,就需要醫(yī)療AI機器人能夠離線識別。然而,考慮到普及化醫(yī)療AI機器的配置也不會很高,無法使用上述深度模型進(jìn)行精準(zhǔn)的喚醒,如果單純使用喚醒詞判斷,醫(yī)院場景中用戶很可能是病人,身體不舒服,說話連音會使發(fā)音不清晰,進(jìn)一步提升了醫(yī)療場景下語音喚醒的難度。
發(fā)明內(nèi)容
為了至少解決現(xiàn)有技術(shù)中醫(yī)療場景下受制于環(huán)境的語音喚醒受限的問題。第一方面,本發(fā)明實施例提供一種用于醫(yī)療場景的語音喚醒方法,包括:
將在所述醫(yī)療場景采集的音頻分別輸入至語音識別引擎和語音喚醒引擎進(jìn)行多線程處理;
利用所述語音喚醒引擎確定的喚醒引擎狀態(tài),對所述語音識別引擎確定語音識別結(jié)果進(jìn)行標(biāo)記,用于識別所述音頻中同聲母和/或同韻母連讀發(fā)音不清晰的喚醒詞;
若檢測到所述語音識別結(jié)果包含喚醒詞且所述喚醒引擎狀態(tài)為喚醒時,對所述音頻進(jìn)行喚醒反饋。
第二方面,本發(fā)明實施例提供一種用于醫(yī)療場景的語音喚醒系統(tǒng),包括:
音頻采集程序模塊,用于將在所述醫(yī)療場景采集的音頻分別輸入至語音識別引擎和語音喚醒引擎進(jìn)行多線程處理;
引擎管理程序模塊,用于利用所述語音喚醒引擎確定的喚醒引擎狀態(tài),對所述語音識別引擎確定語音識別結(jié)果進(jìn)行標(biāo)記,用于識別所述音頻中同聲母和/或同韻母連讀發(fā)音不清晰的喚醒詞;
喚醒程序模塊,用于若檢測到所述語音識別結(jié)果包含喚醒詞且所述喚醒引擎狀態(tài)為喚醒時,對所述音頻進(jìn)行喚醒反饋。
第三方面,提供一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實施例的用于醫(yī)療場景的語音喚醒方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111528745.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





