[發明專利]語音模糊檢索方法及裝置有效
| 申請號: | 200910001164.5 | 申請日: | 2009-01-23 |
| 公開(公告)號: | CN101464896A | 公開(公告)日: | 2009-06-24 |
| 發明(設計)人: | 王智國;吳及;錢勝;呂萍;陳志剛;胡國平;胡郁;劉慶峰;吳曉如;王仁華 | 申請(專利權)人: | 安徽科大訊飛信息科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G10L15/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 | 代理人: | 逯長明 |
| 地址: | 230088安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 模糊 檢索 方法 裝置 | ||
1.一種語音模糊檢索方法,其特征在于,包括:
利用預置的聲學模型及語言模型對獲取的語音信號進行語音識別,得到識別結果;
利用預置的索引表根據所述識別結果在預置的文本條目庫中進行檢索,得到初選條目;
將所述初選條目與所述識別結果進行字符串模糊匹配,選取匹配度在預置的匹配度閾值范圍內的精選條目,同時記錄匹配位置;
計算精選條目匹配部分文本與所述語音信號間的后驗概率,利用后驗概率以及通過所述匹配位置獲得的匹配比例選擇若干個條目作為語音信號的檢索結果。
2.根據權利要求1所述方法,其特征在于,所述索引表包括索引項以及索引項對應的內容,其中,所述索引項為字或詞,所述索引項對應的內容是所述預置的文本條目庫中包括該字或詞對應的文本。
3.根據權利要求2所述方法,其特征在于,還包括:所述語言模型全部或部分利用所述預置的文本條目庫訓練得到。
4.根據權利要求1所述方法,其特征在于,所述利用預置的索引表根據所述識別結果在預置的文本條目庫中進行檢索得到初選條目的具體過程為:
利用預置的索引表對識別結果中的每個字/詞進行投票,選取投票數高于預置的投票數閾值的條目作為所述初選條目;
其中,所述投票是指用識別結果中的字/詞查找索引表的索引項,查詢到索引項后,將該索引所包括的每個條目投票數都加1。
5.根據權利要求1所述方法,其特征在于,所述模糊匹配的匹配算法采用基于混淆矩陣的文本間編輯距離動態規劃計算方法,其中,所述混淆矩陣通過訓練得到或者預先設定,對替換、插入、刪除代價進行優化。
6.一種語音模糊檢索裝置,其特征在于,包括:
語音信號獲取單元,用于獲取語音信號;
識別單元,用于利用預置的聲學模型及語言模型對獲取的語音信號進行語音識別,得到識別結果;
檢索單元,用于利用預置的索引表根據所述識別結果在預置的文本條目庫中進行檢索,得到初選條目;
模糊匹配單元,用于將所述初選條目與所述識別結果進行字符串模糊匹配,選取匹配度在預置的匹配度閾值范圍內的精選條目,并記錄匹配位置;
結果確定單元,用于計算精選條目的匹配部分與所述語音信號間的后驗概率,利用后驗概率以及通過所述匹配位置獲得的匹配比例選擇若干個條目作為語音信號的檢索結果。
7.根據權利要求6所述裝置,其特征在于,還包括:
索引表建立單元,用于建立所述索引表,所述索引表包括索引項以及索引項對應的內容,其中,所述索引項為字或詞,所述索引項對應的內容是所述預置的文本條目庫中包括該字或詞對應的文本。
8.根據權利要求7所述裝置,其特征在于,還包括:
語言模型建立單元,用于利用所述預置的文本條目庫訓練得到所述語言模型的部分或全部。
9.根據權利要求6、7或8所述裝置,其特征在于,所述檢索單元包括:
索引投票子單元,用于利用預置的索引表對識別結果中的每個字/詞進行投票,其中,所述投票是指用識別結果中的字/詞查找索引表的索引項,查詢到索引項后,將該索引所包括的每個條目投票數都加1;
初選條目選取子單元,用于選取投票數高于預置的投票數閾值的條目作為所述初選條目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽科大訊飛信息科技股份有限公司,未經安徽科大訊飛信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910001164.5/1.html,轉載請聲明來源鉆瓜專利網。





