[發(fā)明專利]語音數(shù)據(jù)庫的質(zhì)量評估方法、裝置及計算機存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010164556.X | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111008299B | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設(shè)計)人: | 張衛(wèi)強;李科;黃宇凱;郝玉峰;曹瓊 | 申請(專利權(quán))人: | 北京海天瑞聲科技股份有限公司;清華大學 |
| 主分類號: | G06F16/65 | 分類號: | G06F16/65;G06F16/63 |
| 代理公司: | 北京鉦霖知識產(chǎn)權(quán)代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100083 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 數(shù)據(jù)庫 質(zhì)量 評估 方法 裝置 計算機 存儲 介質(zhì) | ||
本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,提供一種語音數(shù)據(jù)庫的質(zhì)量評估方法、裝置及計算機存儲介質(zhì)。語音數(shù)據(jù)庫的質(zhì)量評估方法包括:獲取待評估的語音數(shù)據(jù)庫,其中,語音數(shù)據(jù)庫中包括至少一條語音;確定語音數(shù)據(jù)庫中至少涉及一種分類因素,分類因素中包括多個子類因素;基于分類因素,通過分類模型對每條語音進行分類檢測,得到語音數(shù)據(jù)庫與分類因素相對應的單因素信息熵;根據(jù)單因素信息熵,確定語音數(shù)據(jù)庫的質(zhì)量。通過本公開提供的語音數(shù)據(jù)庫的質(zhì)量評估方法,根據(jù)檢測語音數(shù)據(jù)庫涉及的分類因素,對語音數(shù)據(jù)庫進行質(zhì)量評估,能夠快速得到評估結(jié)論,且得到的評估結(jié)論更具有客觀性,有助于對語音數(shù)據(jù)庫的構(gòu)建進行調(diào)節(jié)。
技術(shù)領(lǐng)域
本發(fā)明一般地涉及語音信號處理技術(shù)領(lǐng)域,特別是涉及一種語音數(shù)據(jù)庫的質(zhì)量評估方法、裝置及計算機存儲介質(zhì)。
背景技術(shù)
語音數(shù)據(jù)庫是語音信號處理的基礎(chǔ)資源,其數(shù)量和質(zhì)量直接決定了所構(gòu)建語音處理模型的優(yōu)劣。在語音數(shù)據(jù)庫構(gòu)建時,一個重要的考量是覆蓋性。覆蓋性是指語音數(shù)據(jù)庫針對分類因素的覆蓋程度。例如:發(fā)音人的性別、語種、語音內(nèi)容等因素。
傳統(tǒng)獲取語音數(shù)據(jù)庫的覆蓋性是依靠語音數(shù)據(jù)庫設(shè)計階段的專家經(jīng)驗,在制訂采集計劃時使語音數(shù)據(jù)庫中的語音在各種分類因素上分布盡量全面。但是對于已經(jīng)采集完成的數(shù)據(jù)庫,只有在語音信號處理建模后才能根據(jù)識別率等指標得到間接反饋。這使得對語音數(shù)據(jù)庫的評價停留在主觀和間接客觀的層面。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供一種語音數(shù)據(jù)庫的質(zhì)量評估方法、裝置及計算機存儲介質(zhì)。
第一方面,本發(fā)明實施例提供一種語音數(shù)據(jù)庫的質(zhì)量評估方法,包括:獲取待評估的語音數(shù)據(jù)庫,其中,語音數(shù)據(jù)庫中包括至少一條語音;確定語音數(shù)據(jù)庫中至少一種分類因素,分類因素中包括多個子類因素;基于分類因素,通過分類模型對每條語音進行分類檢測,得到語音數(shù)據(jù)庫與分類因素相對應的單因素信息熵;根據(jù)單因素信息熵,確定語音數(shù)據(jù)庫的質(zhì)量。
在一實施例中,基于分類因素,通過分類模型對每條語音進行分類檢測,得到語音數(shù)據(jù)庫與分類因素相對應的單因素信息熵,包括:基于分類因素,通過分類模型對每條語音進行分類檢測,得到語音數(shù)據(jù)庫中各語音與分類因素中多個子類因素相對應的子類條件概率;基于子類條件概率,得到語音數(shù)據(jù)庫與分類因素相對應的單因素信息熵。
在另一實施例中,基于子類條件概率,得到語音數(shù)據(jù)庫與分類因素相對應的單因素信息熵,包括:根據(jù)子類條件概率,得到語音數(shù)據(jù)庫在子類因素下的子類平均條件概率;根據(jù)語音數(shù)據(jù)庫的子類平均條件概率,得到語音數(shù)據(jù)庫與分類因素相對應的單因素信息熵。
在一實施例中,根據(jù)單因素信息熵,確定語音數(shù)據(jù)庫的質(zhì)量,包括:將單因素信息熵進行歸一化,得到語音數(shù)據(jù)庫在分類因素下的歸一化信息熵;根據(jù)各分類因素對應的歸一化信息熵,得到語音數(shù)據(jù)庫的信息熵;根據(jù)語音數(shù)據(jù)庫的信息熵,確定語音數(shù)據(jù)庫的質(zhì)量。
在另一實施例中,根據(jù)語音數(shù)據(jù)庫的信息熵,評估語音數(shù)據(jù)庫的質(zhì)量,包括:將語音數(shù)據(jù)庫的信息熵與指定閾值進行對比,當語音數(shù)據(jù)庫的信息熵大于或等于指定閾值時,則語音數(shù)據(jù)庫的質(zhì)量合格;當語音數(shù)據(jù)庫的信息熵小于指定閾值時,則語音數(shù)據(jù)庫的質(zhì)量不合格。
在又一實施例中,若語音數(shù)據(jù)庫的質(zhì)量不合格,則語音數(shù)據(jù)庫的質(zhì)量評估方法還包括:調(diào)節(jié)語音數(shù)據(jù)庫的語音,直至語音數(shù)據(jù)庫的信息熵大于或等于指定閾值。
在又一實施例中,調(diào)節(jié)語音數(shù)據(jù)庫的語音,直至語音數(shù)據(jù)庫的信息熵大于或等于指定閾值,包括:將分類因素對應的單因素信息熵根據(jù)熵值進行排序,確定最低熵值;根據(jù)最低熵值,確定調(diào)節(jié)因素,調(diào)節(jié)因素為最低熵值對應的分類因素;根據(jù)調(diào)節(jié)因素,調(diào)節(jié)語音數(shù)據(jù)庫中對應調(diào)節(jié)因素的語音。
在一實施例中,分類因素包括以下因素:發(fā)音者的性別、發(fā)音者的年齡、發(fā)音者的口音、采集設(shè)備、采集環(huán)境、發(fā)音因素或內(nèi)容主題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京海天瑞聲科技股份有限公司;清華大學,未經(jīng)北京海天瑞聲科技股份有限公司;清華大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164556.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





