[發明專利]語音搜索結果的處理方法和處理裝置在審
| 申請號: | 201710822725.2 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107610706A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 蔣兵;馬嘯空 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L17/04;G10L21/02;G10L25/24;G10L25/84 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司11204 | 代理人: | 王達佐,馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 搜索 結果 處理 方法 裝置 | ||
技術領域
本申請涉及計算機技術領域,具體涉及語音識別技術領域,尤其涉及語音搜索結果的處理方法和處理裝置。
背景技術
隨著互聯網的快速發展,網絡上的信息資源不斷豐富,信息數據量也在飛速增長。在當今社會,通過搜索引擎來查找所需信息已成為現代人的主要信息獲取方式。同時,伴隨語音識別技術的廣泛應用,語音搜索已成為搜索引擎中的主要搜索方式。這樣可以方便各類人群快速獲取所需信息。因此,如何根據用戶輸入的語音來對搜索結果進行處理,從而使搜索結果更加符合用戶的需求顯得尤為重要。
發明內容
本申請實施例的目的在于提出一種改進的語音搜索結果的處理方法和處理裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請實施例提供了一種語音搜索結果的處理方法,該方法包括:接收用戶輸入的語音信息,并提取語音信息的聲學特征;基于聲學特征,提取語音信息的辨識矢量i-vector特征;將i-vector特征在預先訓練的判別模型中進行識別,其中,判別模型用于識別語音信息所對應的用戶的身份信息;基于判別模型的識別結果,對獲取到的與語音信息相關的搜索結果進行處理。
在一些實施例中,聲學特征包括梅爾頻率倒譜系數特征,以及基于聲學特征,提取語音信息的辨識矢量i-vector特征,包括:對于提取到的梅爾頻率倒譜系數特征中的每一特征分量,計算該特征分量在預先構建的高斯混合模型中的后驗概率,并獲取該特征分量在高斯混合模型中的各階統計量;根據梅爾頻率倒譜系數特征的各特征分量的各階統計量,提取語音信息的i-vector特征。
在一些實施例中,根據梅爾頻率倒譜系數特征的各特征分量的各階統計量,提取語音信息的i-vector特征,包括:響應于檢測到結束語音輸入的操作,則根據梅爾頻率倒譜系數特征的各特征分量的各階統計量,提取語音信息的i-vector特征。
在一些實施例中,身份信息包括用于指示用戶是否為兒童的信息,以及方法還包括訓練判別模型的步驟,包括:獲取不同年齡階段兒童的樣本語音;對于每個年齡階段兒童的樣本語音,提取該樣本語音的i-vector特征,利用機器學習法,將該樣本語音的i-vector特征作為輸入,將用于指示該樣本語音所對應的用戶為兒童的身份信息作為輸出,訓練得到該年齡階段的童聲模型;利用線性回歸學習法,基于不同年齡階段的童聲模型,生成判別模型。
在一些實施例中,基于判別模型的識別結果,對獲取到的與語音信息相關的搜索結果進行處理,包括:若判別模型識別出語音信息所對應的用戶的身份為兒童,則對獲取到的與語音信息相關的搜索結果的內容進行過濾處理,并將處理后的搜索結果發送給用戶。
在一些實施例中,接收用戶輸入的語音信息,并提取語音信息的聲學特征,包括:接收用戶輸入的語音信息,并對語音信息進行語音活動檢測,生成有效的語音信息;提取有效的語音信息的聲學特征。
在一些實施例中,方法還包括:自檢測到啟動語音輸入的操作開始,確定用戶當前輸入的語音信息的時長是否大于預設時長;若確定當前輸入的語音信息的時長大于預設時長,則向用戶發送提示信息。
第二方面,本申請實施例提供了一種語音搜索結果的處理裝置,該裝置包括:接收單元,配置用于接收用戶輸入的語音信息,并提取語音信息的聲學特征;提取單元,配置用于基于聲學特征,提取語音信息的辨識矢量i-vector特征;識別單元,配置用于將i-vector特征在預先訓練的判別模型中進行識別,其中,判別模型用于識別語音信息所對應的用戶的身份信息;處理單元,配置用于基于判別模型的識別結果,對獲取到的與語音信息相關的搜索結果進行處理。
在一些實施例中,聲學特征包括梅爾頻率倒譜系數特征,以及提取單元包括:計算子單元,配置用于對于提取到的梅爾頻率倒譜系數特征中的每一特征分量,計算該特征分量在預先構建的高斯混合模型中的后驗概率,并獲取該特征分量在高斯混合模型中的各階統計量;第一提取子單元,配置用于根據梅爾頻率倒譜系數特征的各特征分量的各階統計量,提取語音信息的i-vector特征。
在一些實施例中,第一提取子單元進一步配置用于:響應于檢測到結束語音輸入的操作,則根據梅爾頻率倒譜系數特征的各特征分量的各階統計量,提取語音信息的i-vector特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710822725.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于智能家居的語音識別系統
- 下一篇:一種訓練聲紋識別模型的方法及系統





