[發明專利]應用標記語言的自然語言表達方法有效
| 申請號: | 01116829.3 | 申請日: | 2001-04-13 |
| 公開(公告)號: | CN1320903A | 公開(公告)日: | 2001-11-07 |
| 發明(設計)人: | 萊爾德·C·威廉斯;安東尼·德宗諾;馬克·J·鮑爾;肯尼思·韋爾;賈里德·布盧斯泰因;吉姆·F·馬丁;達里爾·海麥爾;克雷格·R·香博 | 申請(專利權)人: | 羅克韋爾電子商業公司 |
| 主分類號: | G10L19/00 | 分類號: | G10L19/00;G10L15/00 |
| 代理公司: | 永新專利商標代理有限公司 | 代理人: | 蹇煒 |
| 地址: | 美國伊*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應用 標記 語言 自然 語言表達 方法 | ||
本發明的技術領域涉及人的語音,特別是涉及人的語音的編碼方法。
人的語音的編碼方法是公知的。一種方法是使用字母表中的字母,以文本信息的形式對人的語音進行編碼。這類文本信息被編碼并可使用反差墨載于紙上或其他各種介質上。例如,人的語音可首先以文本格式編碼,然后轉換成ASCII格式后作為二進制信息存儲在計算機中。
文本信息的編碼一般是較有效的處理。但是文本信息往往無法反映出語音的全部內容或意義。例如,句子“Get?out?of?my?way”可以解釋為一種請求(請讓一下路)或是一種威脅(滾開!)。當把該句子記錄成文本信息時,閱讀者在大多數情況下沒有足夠信息識別所傳遞的意義。
但是,如句子“Get?out?of?my?way”是直接聽講話人說出,聽者或許能確定該句子所要表達的意義。例如,如該句子大聲說出,其音量或許使該句子透露出威脅。相反,如該句子小聲說出,其音量透露出對聽者的請求。
遺憾的是,只有記錄語音的頻譜才能抓住詞句的含義。但是,由于所需的帶寬,對頻譜的記錄是難以實現的。由于語音的重要性,因此需要有一種方法來記錄實質上是文本的語音,但又能抓住詞句的含義。
本發明的目的是提供一種用于對口頭語言編碼的方法和設備。
本發明之方法包括下列步驟:識別口頭語言的詞句內容,測量所識別之詞句內容的屬性,對所識別和測量的詞句內容編碼。
以下結合附圖和優選實施例說明本發明。
圖1為本發明一實施例的語言編碼系統的方框圖;
圖2為圖1之系統的一處理器的方框圖;以及
圖3為圖1之系統可使用的處理步驟的流程圖。
圖1為用于口頭(即:自然)語言編碼之系統10的概括的方框圖。圖3描述了圖1之系統10可使用的處理步驟的流程圖。在所示實施例中,語音由一麥克風12檢測后,在一模擬/數字(A/D)轉換器14中轉換成數字采樣100及在一中央處理器(CPU)18中處理。
在CPU18中進行的處理可以包括:詞句內容的識別104,或者更準確地說是語音元素(例如音素、語素、單詞、句子、語法上的詞尾變化等)的識別,以及與所識別單詞或語音元素的使用有關的詞句屬性的測量102。在本文中,識別詞句內容(即:語音元素)是指識別可被理解的、以表示該語音元素的字符或字符序列(例如,包括字母及數字混編的文本序列)。此外,口頭語言的屬性指口頭語言的可測量附帶內容(例如音色、幅度等)。屬性的測量還可包括測量與一語音元素的使用有關的任何特性,通過該語音元素可進一步確定該語音的意義(例如主頻率、單詞或音節速率、詞尾變化、停頓、音量、功率、音調、背景噪聲等)。
一旦完成識別,語音連同語音屬性可被編碼并存儲在一存儲器16中,也可把原始口頭語言內容還原后傳給當地或遠處的聽者。所識別的語音和語音屬性可用任何格式編碼以存儲和/或傳輸,但在優選實施例中,用ASCII格式編碼的所識別語音元素與用標記語言(mark-up?language)格式編碼的屬性交織在一起。
另一方法是,所識別的語音和屬性也可作為一復合文件的獨立子文件存儲或傳輸。以獨立子文件存儲時,可把一共同時基編碼入該整個復合文件結構中,使得屬性與所識別語音的對應元素匹配。
在所示實施例中,以后可從存儲器16中檢索出語音,并在當地或遠處還原,采用所識別的語音元素和屬性以真實地還原原始口頭語言內容。此外,在還原過程中可改變語音的屬性和詞尾變化,以與表現要求匹配。
在所示實施例中,由一運行在CPU18中的語音識別(SR)應用程序24可以實現語音元素的識別。該SR應用程序可用來確定各單詞,該應用程序24還可提供識別語音元素(即音素)的系統設定選項。
在識別單詞時,CPU18可用來存儲作為文本信息的各字詞。當對特殊單詞或句子無法進行單詞識別時,使用國際語音字符表下的合適符號,其聲音可作為語音表達式存儲。無論何種情況,可在存儲器16中存儲所識別的詞句內容的聲音的一連續表達式。
在單詞識別的同時還可采集語音屬性。例如,一時鐘30可被用于提供標記,該標記可被插入在所識別單詞之間或插入停頓之中(例如,用于時間同步信息的SMPTE標識符)。可用一幅度計26測量語音元素的音量。
作為本發明另一個特征,采用提供一個或多個快速傅立葉變換(FFT)值的一FFT應用程序28可處理語音元素。由FFT應用程序28,可獲得每一單詞的頻譜分布圖。從該頻譜分布圖可獲得每一單詞或語音元素的主頻率或頻譜內容的分布圖,作為語音屬性。該主頻率和各副諧波提供一可識別的諧波特征,該特征在任何還原語音段中可用來確定講話者。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于羅克韋爾電子商業公司,未經羅克韋爾電子商業公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01116829.3/2.html,轉載請聲明來源鉆瓜專利網。





