[發(fā)明專利]一種基于驗(yàn)證碼的語(yǔ)音數(shù)據(jù)樣本采集系統(tǒng)及其方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910065909.8 | 申請(qǐng)日: | 2019-01-24 |
| 公開(公告)號(hào): | CN109785834A | 公開(公告)日: | 2019-05-21 |
| 發(fā)明(設(shè)計(jì))人: | 劉作;陳楊;羅一鳴;張強(qiáng);黃忠山;郭夏杰 | 申請(qǐng)(專利權(quán))人: | 中國(guó)—東盟信息港股份有限公司 |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L17/02;G06F3/16 |
| 代理公司: | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 譚連香 |
| 地址: | 530200 廣西壯*** | 國(guó)省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 采集模塊 用戶終端 語(yǔ)音驗(yàn)證 語(yǔ)音樣本 語(yǔ)音數(shù)據(jù)樣本 標(biāo)準(zhǔn)文字 采集系統(tǒng) 校驗(yàn)請(qǐng)求 樣本數(shù)據(jù) 驗(yàn)證碼 服務(wù)器 語(yǔ)音 采集 樣本數(shù)據(jù)庫(kù) 采樣成本 傳統(tǒng)人工 呼叫終端 文字內(nèi)容 現(xiàn)場(chǎng)采集 驗(yàn)證對(duì)比 驗(yàn)證服務(wù) 樣本采集 朗讀 錄入 工作量 丟棄 樣本 驗(yàn)證 指令 成功 | ||
本發(fā)明公開了一種基于驗(yàn)證碼的語(yǔ)音數(shù)據(jù)樣本采集系統(tǒng)及其方法,用戶終端與語(yǔ)音驗(yàn)證及采集模塊連接,用戶通過(guò)用戶終端發(fā)起校驗(yàn)請(qǐng)求,通過(guò)主要由樣本采集服務(wù)器、樣本數(shù)據(jù)庫(kù)、呼叫終端和語(yǔ)音轉(zhuǎn)文字服務(wù)器構(gòu)成的語(yǔ)音驗(yàn)證及采集模塊為用戶終端提供驗(yàn)證服務(wù),在使用時(shí),語(yǔ)音驗(yàn)證及采集模塊根據(jù)校驗(yàn)請(qǐng)求發(fā)出標(biāo)準(zhǔn)文字樣本數(shù)據(jù),用戶根據(jù)指令通過(guò)用戶終端朗讀標(biāo)準(zhǔn)文字樣本數(shù)據(jù)的文字內(nèi)容,得到語(yǔ)音樣本;語(yǔ)音驗(yàn)證及采集模塊對(duì)該語(yǔ)音樣本進(jìn)行語(yǔ)音轉(zhuǎn)文字的處理,得到即時(shí)文字樣本,進(jìn)行驗(yàn)證對(duì)比,對(duì)比成功則采集該語(yǔ)音樣本,否則丟棄。整個(gè)過(guò)程,只需用戶驗(yàn)證參與即可,無(wú)需現(xiàn)場(chǎng)采集,與傳統(tǒng)人工錄入的做法相比,語(yǔ)音樣本采集工作量少、采樣成本的投入更低。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語(yǔ)音數(shù)據(jù)采集技術(shù),特別是一種基于驗(yàn)證碼的語(yǔ)音數(shù)據(jù)樣本采集系統(tǒng)及其方法。
背景技術(shù)
隨著大數(shù)據(jù)產(chǎn)業(yè)與人工智能深度學(xué)習(xí)的迅猛發(fā)展,對(duì)數(shù)據(jù)樣本的需求呈指數(shù)級(jí)增長(zhǎng)。因?yàn)椴还苁侨斯ぶ悄苓€是大數(shù)據(jù)都是需要基于前端數(shù)據(jù)獲取的基礎(chǔ)上才能進(jìn)行下一步的數(shù)據(jù)處理,而不同領(lǐng)域和不同功能的應(yīng)用場(chǎng)景對(duì)于數(shù)據(jù)樣本的采集區(qū)別較大,尤其是涉及人體本身的生物特征的采集。例如人臉識(shí)別、圖像識(shí)別、語(yǔ)音識(shí)別、語(yǔ)音翻譯等,由于采集的數(shù)據(jù)樣本涉及不同人群的指紋、臉部圖像、聲音等人本身特有生物特征,因此需要采集大量的數(shù)據(jù)樣本。現(xiàn)有技術(shù)中,對(duì)于語(yǔ)音數(shù)據(jù)樣本的采集一般是通過(guò)人工錄入而進(jìn)行的采集,耗費(fèi)人力資源大,造成數(shù)據(jù)采集成本提高。
驗(yàn)證碼(CAPTCHA)是“Completely Automated Public Turing test to tellComputers and Humans Apart”(全自動(dòng)區(qū)分計(jì)算機(jī)和人類的圖靈測(cè)試)的縮寫,是一種區(qū)分用戶是計(jì)算機(jī)還是人的公共全自動(dòng)程序。用戶在第三平臺(tái)上使用時(shí)可防止:惡意破解密碼、刷票、論壇灌水、身份核實(shí)等功能,驗(yàn)證碼已成為很多網(wǎng)站/平臺(tái)通行的方式。因此,基于第三平臺(tái)并通過(guò)驗(yàn)證碼技術(shù)實(shí)現(xiàn)語(yǔ)音數(shù)據(jù)樣本的采集成為數(shù)據(jù)采集領(lǐng)域的一大挑戰(zhàn)。
發(fā)明內(nèi)容
本發(fā)明的發(fā)明目的是,針對(duì)上述問(wèn)題,提供一種基于驗(yàn)證碼的語(yǔ)音數(shù)據(jù)樣本采集系統(tǒng),本發(fā)明基于為第三方平臺(tái)提供驗(yàn)證碼服務(wù)的途徑,并利用用戶在驗(yàn)證碼服務(wù)中的廣泛參與,順利且快捷完成語(yǔ)音數(shù)據(jù)樣本的采集,有效節(jié)約數(shù)據(jù)采集的成本。
為達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案是:
一種基于驗(yàn)證碼的語(yǔ)音數(shù)據(jù)樣本采集系統(tǒng),包括用戶終端和語(yǔ)音驗(yàn)證及采集模塊,所述用戶終端與語(yǔ)音驗(yàn)證及采集模塊連接,用以向語(yǔ)音驗(yàn)證及采集模塊發(fā)起校驗(yàn)請(qǐng)求,用戶根據(jù)語(yǔ)音驗(yàn)證及采集模塊發(fā)來(lái)的指令朗讀文字樣本數(shù)據(jù)中的文字內(nèi)容,并對(duì)應(yīng)生成語(yǔ)音樣本,所述語(yǔ)音樣本由用戶終端發(fā)送給語(yǔ)音驗(yàn)證及采集模塊,所述文字樣本數(shù)據(jù)包括文字樣本和編號(hào);
所述語(yǔ)音驗(yàn)證及采集模塊,用以接收用戶終端的校驗(yàn)請(qǐng)求,并根據(jù)校驗(yàn)請(qǐng)求向用戶終端發(fā)送待識(shí)別的文字樣本數(shù)據(jù),同時(shí)接收用戶終端發(fā)來(lái)的語(yǔ)音樣本且將該語(yǔ)音樣本進(jìn)行語(yǔ)音轉(zhuǎn)文字的處理后,得到即時(shí)文字樣本數(shù)據(jù),然后將即時(shí)文字樣本數(shù)據(jù)與語(yǔ)音驗(yàn)證及采集模塊內(nèi)存儲(chǔ)的標(biāo)準(zhǔn)文字樣本數(shù)據(jù)進(jìn)行校驗(yàn)對(duì)比,通過(guò)校驗(yàn)對(duì)比的結(jié)果來(lái)確定是否采集該語(yǔ)音樣本。
作為優(yōu)選實(shí)施方式,所述語(yǔ)音驗(yàn)證及采集模塊包括樣本采集服務(wù)器、樣本數(shù)據(jù)庫(kù)、呼叫終端和語(yǔ)音轉(zhuǎn)文字服務(wù)器,
所述用戶終端與樣本采集服務(wù)器連接,用于與樣本采集服務(wù)器進(jìn)行信息交互并向樣本采集服務(wù)器發(fā)起驗(yàn)證請(qǐng)求;所述用戶終端還與呼叫終端連接,用以接收呼叫終端發(fā)來(lái)的話路呼叫,并根據(jù)話路呼叫朗讀文字樣本數(shù)據(jù),以向呼叫終端輸出文字樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音樣本;
所述樣本采集服務(wù)器,用以向用戶終端提供驗(yàn)證服務(wù);所述樣本采集服務(wù)器還與樣本數(shù)據(jù)庫(kù)連接,用于調(diào)取樣本數(shù)據(jù)庫(kù)中存儲(chǔ)的文字樣本數(shù)據(jù);所述樣本采集服務(wù)器還與呼叫終端連接,用于控制呼叫終端向用戶終端發(fā)起呼叫驗(yàn)證;
所述樣本數(shù)據(jù)庫(kù)與樣本采集服務(wù)器連接,用于向樣本采集服務(wù)器提供文字樣本的編號(hào)以及存儲(chǔ)識(shí)別的樣本標(biāo)簽;所述樣本數(shù)據(jù)庫(kù)還與呼叫終端連接,用于存儲(chǔ)呼叫終端發(fā)來(lái)的語(yǔ)音樣本;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)—東盟信息港股份有限公司,未經(jīng)中國(guó)—東盟信息港股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910065909.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種語(yǔ)音輸入驗(yàn)證的裝置及方法
- 一種語(yǔ)音驗(yàn)證方法、裝置及系統(tǒng)
- 語(yǔ)音識(shí)別終端的支付方法及系統(tǒng)
- 語(yǔ)音處理方法、裝置、存儲(chǔ)介質(zhì)及終端設(shè)備
- 語(yǔ)音驗(yàn)證方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 語(yǔ)音信息驗(yàn)證方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 語(yǔ)音驗(yàn)證方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 提高用戶身份驗(yàn)證安全性的方法、裝置、服務(wù)器及系統(tǒng)
- 信息驗(yàn)證方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 設(shè)備的功能控制方法、裝置、系統(tǒng)和存儲(chǔ)介質(zhì)
- 語(yǔ)音數(shù)據(jù)處理方法和裝置
- 一種數(shù)據(jù)處理方法、裝置及電子設(shè)備
- 用于生成語(yǔ)音樣本的方法、裝置、電子設(shè)備和介質(zhì)
- 基于語(yǔ)音增強(qiáng)算法的對(duì)抗樣本攻擊防御方法及裝置
- 語(yǔ)音識(shí)別模型確定方法、語(yǔ)音識(shí)別方法及裝置、電子設(shè)備
- 語(yǔ)音樣本生成方法及裝置、存儲(chǔ)介質(zhì)、電子裝置
- 語(yǔ)音數(shù)據(jù)生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置及電子設(shè)備
- 一種語(yǔ)料獲取方法及裝置
- 惡意語(yǔ)音樣本的確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





