[發(fā)明專利]一種數(shù)據(jù)處理方法、裝置和用于數(shù)據(jù)處理的裝置在審
| 申請?zhí)枺?/td> | 201810084098.1 | 申請日: | 2018-01-29 |
| 公開(公告)號: | CN110110292A | 公開(公告)日: | 2019-08-09 |
| 發(fā)明(設(shè)計)人: | 姚光超 | 申請(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司;搜狗(杭州)智能科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27;G10L15/06;G10L15/22 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 目標(biāo)結(jié)構(gòu) 目標(biāo)數(shù)據(jù)類型 多元文法 結(jié)構(gòu)數(shù)據(jù) 內(nèi)存空間 數(shù)據(jù)對應(yīng) 語音識別 減小 存儲 占用 | ||
本發(fā)明實施例提供了一種數(shù)據(jù)處理方法、裝置和用于數(shù)據(jù)處理的裝置。其中的方法具體包括:從多元文法模型的結(jié)構(gòu)數(shù)據(jù)中確定第一目標(biāo)結(jié)構(gòu)數(shù)據(jù);確定所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)對應(yīng)的目標(biāo)數(shù)據(jù)類型;按照所述目標(biāo)數(shù)據(jù)類型,對所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)進(jìn)行存儲。本發(fā)明實施例可以極大地減小多元文法模型占用的內(nèi)存空間,進(jìn)而可以提高語音識別的速度。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法、裝置和用于數(shù)據(jù)處理的裝置。
背景技術(shù)
語音識別,是指將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,例如將語音信號轉(zhuǎn)換為文本等。隨著語音識別技術(shù)的不斷發(fā)展,語音識別技術(shù)的應(yīng)用場景也更加廣泛,例如上述應(yīng)用場景可以包括:語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。
n-gram(n元文法)模型是語音識別中常用的一種語言模型,其中,n通常為大于1的正整數(shù),且通常n越大則語言模型的性能越高,語音識別的結(jié)果也越準(zhǔn)確。
離線語音識別是指將語音識別所需要的語言模型等相關(guān)資源存儲在客戶端,由客戶端在不聯(lián)網(wǎng)的情況下完成語音識別的技術(shù)。然而,語言模型的數(shù)據(jù)量通常較大,將語言模型存儲在客戶端,會占用客戶端大量的內(nèi)存空間;上述內(nèi)存空間的占用不僅會影響離線語音識別的運(yùn)行速度,還會影響客戶端中其它應(yīng)用的運(yùn)行。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種數(shù)據(jù)處理方法、裝置和用于數(shù)據(jù)處理的裝置,以解決現(xiàn)有技術(shù)中離線語音識別內(nèi)存占用過大的問題。
為了解決上述問題,本發(fā)明實施例公開了一種數(shù)據(jù)處理方法,包括:
從多元文法模型的結(jié)構(gòu)數(shù)據(jù)中確定第一目標(biāo)結(jié)構(gòu)數(shù)據(jù);
確定所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)對應(yīng)的目標(biāo)數(shù)據(jù)類型;
按照所述目標(biāo)數(shù)據(jù)類型,對所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)進(jìn)行存儲。
可選地,所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)包括:文法的條件概率、和/或、文法的回退權(quán)重;所述目標(biāo)數(shù)據(jù)類型包括:單字節(jié)整型。
可選地,所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)包括:所述多元文法模型中文法的詞序列;所述目標(biāo)數(shù)據(jù)類型包括:無符號雙字節(jié)整型。
可選地,所述方法還包括:
從所述多元文法模型的結(jié)構(gòu)數(shù)據(jù)中確定第二目標(biāo)結(jié)構(gòu)數(shù)據(jù);所述第二目標(biāo)結(jié)構(gòu)數(shù)據(jù)包括:文法的回退位置、和/或、文法的回退位置對應(yīng)的層數(shù);
從所述多元文法模型的結(jié)構(gòu)數(shù)據(jù)中刪除所述第二目標(biāo)結(jié)構(gòu)數(shù)據(jù),以得到壓縮后的多元文法模型。
可選地,所述第二目標(biāo)結(jié)構(gòu)數(shù)據(jù)還包括:以文法為前綴的下一層文法的起始位置。
可選地,所述第二目標(biāo)結(jié)構(gòu)數(shù)據(jù)還包括:最高層文法對應(yīng)的回退權(quán)重。
可選地,所述方法還包括:
從所述多元文法模型的數(shù)據(jù)中確定第一數(shù)據(jù)和第二數(shù)據(jù);所述第一數(shù)據(jù)包括:文法的回退權(quán)重、和/或、文法的回退位置對應(yīng)的層數(shù);所述第二數(shù)據(jù)包括:文法的詞序列;
將所述第一數(shù)據(jù)作為目標(biāo)數(shù)據(jù)字段的高位進(jìn)行存儲,以及,將所述第二數(shù)據(jù)作為所述目標(biāo)數(shù)據(jù)字段的低位進(jìn)行存儲。
可選地,所述目標(biāo)數(shù)據(jù)字段包括:第一數(shù)據(jù)或者第二數(shù)據(jù)對應(yīng)的字段。
另一方面,本發(fā)明實施例公開了一種語音識別方法,包括:
加載多元文法模型;所述多元文法模型的結(jié)構(gòu)數(shù)據(jù)中包括:第一目標(biāo)結(jié)構(gòu)數(shù)據(jù),且所述第一目標(biāo)結(jié)構(gòu)數(shù)據(jù)的類型為目標(biāo)數(shù)據(jù)類型;
根據(jù)所述多元文法模型對文法進(jìn)行語音識別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司;搜狗(杭州)智能科技有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司;搜狗(杭州)智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810084098.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 移動結(jié)構(gòu)內(nèi)的目標(biāo)定位
- 送風(fēng)目標(biāo)結(jié)構(gòu)以及圖像形成設(shè)備
- 進(jìn)動目標(biāo)結(jié)構(gòu)參數(shù)提取方法
- 緊固目標(biāo)構(gòu)件以及緊固結(jié)構(gòu)
- 一種基于路網(wǎng)結(jié)構(gòu)和目標(biāo)特性的目標(biāo)跟蹤算法
- 芯片結(jié)構(gòu)的增強(qiáng)現(xiàn)實顯示方法、裝置和可讀存儲介質(zhì)
- 目標(biāo)搜索相機(jī)的安裝結(jié)構(gòu)
- 顱腦超聲圖像并行分割方法及裝置
- 面向目標(biāo)的結(jié)構(gòu)系統(tǒng)
- 面向目標(biāo)的結(jié)構(gòu)區(qū)域系統(tǒng)
- 在模型中描述預(yù)期實體關(guān)系
- 一種數(shù)據(jù)校驗方法、裝置及電子設(shè)備
- 基于數(shù)據(jù)類型的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置
- 數(shù)據(jù)處理方法、裝置、存儲介質(zhì)及電子設(shè)備
- 一種數(shù)據(jù)寫入、讀取方法及裝置
- 基于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)抽取方法及裝置
- 信息處理方法及裝置、電子設(shè)備和存儲介質(zhì)
- 數(shù)據(jù)處理方法及其裝置以及視頻處理設(shè)備
- 實現(xiàn)數(shù)據(jù)庫中集合數(shù)據(jù)類型的數(shù)據(jù)處理方法及系統(tǒng)
- 一種數(shù)據(jù)同步方法及裝置





