[發明專利]語音輸入方法及裝置無效
| 申請號: | 201010187345.4 | 申請日: | 2010-07-26 |
| 公開(公告)號: | CN101876887A | 公開(公告)日: | 2010-11-03 |
| 發明(設計)人: | 劉彤 | 申請(專利權)人: | 劉彤 |
| 主分類號: | G06F3/16 | 分類號: | G06F3/16;G10L15/26 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 朱小杰 |
| 地址: | 瑞典斯德哥爾*** | 國省代碼: | 瑞典;SE |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 輸入 方法 裝置 | ||
技術領域
本發明涉及一種計算機語音輸入技術,特別的涉及將說話語音轉變為相應文字的語音輸入方法及裝置。
背景技術
計算機的出現給人們書寫文字和寫作提供了巨大的方便,它使得任何稍微懂得計算機的人都可以方便地寫任何文件、書信。迄今為止,用計算機書寫文字的最好和使用最為普遍的方法是用鍵盤。但是這方法有兩個缺點,一是速度慢,尤其是用戶鍵盤輸入中文,因為鍵盤本質上是為輸入西方文字而設計的;二是要求使用者有必要的鍵盤輸入的訓練和技巧,尤其是具有較高輸入速度要求的時候。
由于用鍵盤輸入文字速度慢,而人們說話的速度遠遠快于鍵盤輸入的速度,所以它不適于做會議、談話的記錄。而對于沒有經過專門訓練的人,用鍵盤來快速輸入篇幅比較長的中文,是一項非常困難的工作。
美國的IBM公司在過去一些年做了不少語音識別和語音合成的研究工作,在此基礎上開發出了名為“VIAVOICE”的語音識別技術和產品。它是個開發成熟而使用較廣的技術,目前已應用在許多公司的手機和其它電子產品上,用于接收用戶發出的語音指令。但是該技術識別短語和單詞的量有限,識別的正確率約在50-70%之間。由于錯誤比例太大,使用起來很不方便,所以除了用在手機指令系統,其他使用場合很少見到。此外其他幾個公司也做過類似語音輸入的嘗試,結果并不比IBM技術更好,因此其技術基本不為市場所接受,產品也無人問津。
VIAVOICE和其他現存語音識別與輸入技術內容總的來說,都是用查字典(數據庫)的方式完成的。即對一種語言,建立一個詞匯發音與對應詞匯文字的盡可能完全的數據庫。用戶說出的話被話筒收入后,輸入計算機轉為數值音頻信號。對于相應于音頻信號中每個字詞的音素,其技術通過查找數據庫把相應的詞尋找出來,由此把語音輸入轉換為文字。其工作過程由圖1所示。
然而由于對應一個音素,往往有多個字或者詞,而僅憑查數據庫無法確定應該取哪一個,所以上述產品都默認采取數據庫中的第一個字或詞。這樣難免發生較高的錯誤率,見圖1,在“中國,古老而美麗的國家“這樣一句話語音輸入中,出現了兩處錯誤。
VIAVOICE和其他現存語音識別與輸入技術的另外一個出錯的來源是噪音的干擾。當人說出的話語通過話筒輸入電腦而轉化為數值音素時,由于話筒質量問題、音頻采集過程和數模轉化,不可避免地都會產生噪音,這些噪音疊加在語音信號上,在輸入音素中占相當大的比例,從而導致偽語音輸入信號,必然導致語音識別容易出現錯誤。
中國國家知識產權局公開的申請號為01144523.8發明專利申請公開說明書公開了一種語音輸入方法及裝置,其主要功能面向手提數字電子設備的語言指令系統,語言都較為簡短,但是該技術與VIAVOICE一樣,存在上文所述的不足。
發明內容
本發明的首要目的在于提供一種能夠降低語音識別錯誤率、并且具有智能識別功能的語音輸入方法,其次在于提供一種能夠實現語音輸入高識別率、智能識別輸入的裝置。
實現本發明目的的技術方案是:
一種語音輸入方法,具有如下步驟:
1)由語音收集器收入用戶發出的語音;
2)把收集到語音中的噪音過濾掉;
3)根據語音-字詞數據庫辨認出相應文字;
4)根據輸入的上下文對輸入的文字進行更正,以獲得正確的文字;
5)將得到的全部輸入文字顯示出來或者輸入文件。
上述步驟2)包括如下步驟:
a、將語音收集器中的語音電流信號轉換成數字音頻信號;
b、將數字音頻信號進行Z變換,過濾掉說話頻率之外的頻率;
c、將剩余的音頻信號進行Z變換的逆變換,得到過濾后的語音信號。
上述步驟3)中語音-字詞數據庫包括吳語字數據庫、廣東話音字數據庫、四川話音字數據庫、普通話音字數據庫、英國英語數據庫和美國英語數據庫。
上述步驟3)和4)中由智能語音識別器進行判斷識別,判斷時由智能語音識別器的智能語言識別核心讀入字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容數據庫,以選擇最合適的字詞。
上述文章領域、風格和內容信息數據庫隨著識別語音內容的不斷增多而不斷將輸入內容信息補充到自身數據庫中。
一種語音輸入裝置,包括語音收集器、數模轉換音卡、Z變換集成電路模塊、智能語音識別器、存儲器和顯示模塊,上述語音收集器與數模轉換音卡連接,數模轉換音卡與Z變換集成電路模塊連接,Z變換集成電路模塊與存儲器連接,智能語音識別器與存儲器連接,顯示模塊與存儲器連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉彤,未經劉彤許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010187345.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在虛擬平臺上實現虛擬機移轉的方法
- 下一篇:模具復制加工的方法





