[發明專利]語音處理方法、信息裝置與計算機程序產品在審
| 申請號: | 201810988537.1 | 申請日: | 2018-08-28 |
| 公開(公告)號: | CN110867191A | 公開(公告)日: | 2020-03-06 |
| 發明(設計)人: | 許云旭;陳柏儒 | 申請(專利權)人: | 洞見未來科技股份有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0272;G10L25/51;H04L29/08 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 梁麗超;田喜慶 |
| 地址: | 薩摩亞*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 方法 信息 裝置 計算機 程序 產品 | ||
本發明涉及一種語音處理方法、信息裝置與計算機程序產品。該計算機執行的語音處理方法,包含:通過一麥克風取得一混合語音信號,其中該混合語音信號至少包含不特定的多個說話人所同時發出的多個語音信號;根據該混合語音樣本信號而利用一生成對抗網絡產出一組模擬語音信號,以模擬該多個語音信號;以及決定該組模擬語音信號的信號數目以估計所在環境中該多個說話人的人數,并提供作為一信息應用程序的輸入。
技術領域
本發明大體而言關于計算機執行的語音處理方法與信息裝置。特別地,關于一種計算機執行的語音處理方法與信息裝置,其可從所接收到的混合語音信號中估計所在環境中不特定說話人的人數。
背景技術
關于可檢測語音且可供用戶通過語音進行控制的信息裝置,目前已有商業化的智能音箱產品,其基本結構可參考Amazon公司的產品Amazon Echo或是Google公司的產品Google Home而加以了解。此類裝置一般而言具有處理器,而可在本地或是通過網絡而在云端執行各式應用程序,以提供各式信息服務。
此外,以Google Home為例,其可支持多用戶,也就是可為每個用戶提供不同的服務。為了要對用戶進行識別,每個用戶必須先注冊其聲紋。用戶先對著Google Home說出「OkGoogle」和「Hey Google」兩個喚醒詞。然后Google Home會分析那些喚醒詞,以分析出該用戶聲紋的特征。之后該用戶再對Google Home說「Ok Google」或「Hey Google」,Google Home就將聲音與以前所注冊的聲紋比較,理解是誰在說話。
另一方面,現有技術也可針對用戶所發出的語音內容進行辨識,例如可辨識出用戶話語中的特定字眼,進而決定用戶當下所感興趣的事物或是用戶當下的情緒,由此可決定所要提供給該用戶的服務內容。對此可參考例如美國專利US 9934785或是USPub.20160336005。
發明內容
雖然現有技術中可以做到說話人的辨識以及單字或語句內容的識別,但仍然有需要改進的空間。特別是,為了提供更符合用戶需求的服務,會希望能夠針對當下的環境特性(profile)及/或用戶的行為模式進行識別。對此,本發明體認到通過對于環境中說話人的人數以及人數變化進行辨識,可以合理地推斷出環境的特性以及環境中用戶的行為模式。
以住家環境為例,在一天當中,由于大部分的家庭成員在日間皆外出上班上學,因此在此環境中日間的說話人的數目最少,而到傍晚以后增加,在到晚餐時間可能人數到最大值。相較之下,在一般辦公室的環境中,其說話人的數目會在上班時間較多,而到下班時間后逐漸減少。因此,可以根據說話人的數目以及在一天之中變化的趨勢,再搭配其他已知的信息(例如通過GPS數據或是網絡IP地址所推知的地理信息),可對用戶所在環境的特性進行更精確的判斷,進而提供客制化的服務。
現有技術中也許可通過聲紋辨識來識別出說話人的數目,但仍有些許不足之處。首先,現有技術中例如上述Google Home聲紋辨識的作法,必須仰賴用戶先將其聲紋進行注冊,使用上并不方便。此外目前已有金融機構以用戶的聲紋作為身分驗證工具,因此某些用戶可能會擔心聲紋數據外泄遭濫用而不愿輕易提供。其次,縱使用戶愿意預先注冊其聲紋,然而當同時有不特定的多數用戶進行交談或同時說話時,也就是俗稱「雞尾酒會問題(cocktail party problem)」的情況下,通過預先注冊的聲紋進行比對來判斷出當下環境中說話人的數目并不容易,而在人數無法確定的情況下,要進一步將各個聲紋一一區分而加以辨識其內容,或是要分離各個說話人的聲音就更為困難。
有鑒于此,本發明一方面提出一種計算機執行的語音處理方法與信息裝置,其可采用深度學習(deep learning)的作法,特別是生成對抗網絡(Generative AdversarialNetwork)模型,而從所接受到的混合語音信號中估計所在環境中不特定說話人的人數,且優選地,其可不需要用戶預先提供其聲紋(即預先注冊聲紋)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于洞見未來科技股份有限公司,未經洞見未來科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810988537.1/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





