[發(fā)明專利]一種語(yǔ)音識(shí)別文本的智能糾錯(cuò)方法、系統(tǒng)和電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202011191600.2 | 申請(qǐng)日: | 2020-10-30 |
| 公開(公告)號(hào): | CN112016275A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 李蒙;劉志敏 | 申請(qǐng)(專利權(quán))人: | 北京淇瑀信息科技有限公司 |
| 主分類號(hào): | G06F40/151 | 分類號(hào): | G06F40/151;G06F40/216;G06F40/226;G06F40/242;G06F40/279;G10L15/26 |
| 代理公司: | 北京清誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11691 | 代理人: | 喬?hào)|峰 |
| 地址: | 100012 北京市朝陽(yáng)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語(yǔ)音 識(shí)別 文本 智能 糾錯(cuò) 方法 系統(tǒng) 電子設(shè)備 | ||
本發(fā)明提供了一種語(yǔ)音識(shí)別文本的智能糾錯(cuò)方法、系統(tǒng)和電子設(shè)備。該方法包括:利用主題式對(duì)話的歷史無(wú)錯(cuò)文本構(gòu)建糾錯(cuò)詞庫(kù);接收用戶語(yǔ)音輸入,對(duì)所述用戶語(yǔ)音輸入進(jìn)行用戶文本輸入的轉(zhuǎn)換;對(duì)轉(zhuǎn)換后的用戶文本輸入,進(jìn)行分詞處理;使用所述糾錯(cuò)詞庫(kù),對(duì)分詞處理后的各詞進(jìn)行糾錯(cuò)判斷,確定待糾錯(cuò)詞;基于向量相似度,與所述糾錯(cuò)詞庫(kù)中詞向量進(jìn)行相似度匹配;根據(jù)相似度匹配結(jié)果,對(duì)所述待糾錯(cuò)詞進(jìn)行糾錯(cuò)。本發(fā)明的方法優(yōu)化了糾錯(cuò)方法,提高了準(zhǔn)確度,有效避免了待糾錯(cuò)的語(yǔ)音文本并未糾錯(cuò)的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)信息處理領(lǐng)域,具體涉及一種語(yǔ)音識(shí)別文本的智能糾錯(cuò)方法、系統(tǒng)和電子設(shè)備。
背景技術(shù)
隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)的應(yīng)用領(lǐng)域越來(lái)越廣,使用語(yǔ)音進(jìn)行交互的用戶也越來(lái)越多。因此,對(duì)于語(yǔ)音識(shí)別文本糾錯(cuò)的研究也越來(lái)越多。
在相關(guān)技術(shù)中,公開了一種對(duì)語(yǔ)音識(shí)別后文本進(jìn)行檢錯(cuò)糾錯(cuò)的方法,即通過(guò)對(duì)待識(shí)別語(yǔ)音文本進(jìn)行語(yǔ)法語(yǔ)義分析,從而定位出該待識(shí)別語(yǔ)音文本中的錨點(diǎn)詞,然后,在預(yù)配置的存儲(chǔ)有大量實(shí)例(例如,各種語(yǔ)境下的句子)的語(yǔ)境知識(shí)庫(kù)中抽取每個(gè)錨點(diǎn)詞對(duì)應(yīng)的實(shí)例(例如,包含該錨點(diǎn)詞的文本局形成的實(shí)例),然后分別計(jì)算每個(gè)錨點(diǎn)詞對(duì)應(yīng)的實(shí)例與該待識(shí)別語(yǔ)音文本間的詞語(yǔ)相關(guān)度,并從該每個(gè)錨點(diǎn)詞對(duì)應(yīng)的實(shí)例中選擇,以確定出待糾錯(cuò)詞,并對(duì)該待糾錯(cuò)詞進(jìn)行糾錯(cuò)。由于同一詞語(yǔ)在不同場(chǎng)景下所形成的實(shí)例不同,現(xiàn)有的語(yǔ)境知識(shí)庫(kù)中不能涵蓋每個(gè)詞語(yǔ)的所有語(yǔ)境下的實(shí)例,因此,存在待糾錯(cuò)的語(yǔ)音文本并未糾錯(cuò)的問(wèn)題,從而準(zhǔn)確度不高。
然而,由于各種外部環(huán)境因素,場(chǎng)景差異較大,在語(yǔ)音識(shí)別過(guò)程中出現(xiàn)語(yǔ)音識(shí)別錯(cuò)誤是難以避免的,而語(yǔ)音識(shí)別錯(cuò)誤會(huì)影響后續(xù)的語(yǔ)義理解模型及對(duì)話邏輯處理、進(jìn)而極大地影響整個(gè)語(yǔ)音對(duì)話系統(tǒng)的效果及體驗(yàn)。因此,迫切地需要在語(yǔ)音識(shí)別結(jié)果中定位并糾正語(yǔ)音識(shí)別錯(cuò)誤。可是,現(xiàn)有的語(yǔ)音識(shí)別模型的更新周期往往較長(zhǎng),無(wú)法方便快速地解決語(yǔ)音識(shí)別錯(cuò)誤,還存在準(zhǔn)確度不高等問(wèn)題。
因此,有必要提供一種準(zhǔn)確度更高的智能糾錯(cuò)方法。
發(fā)明內(nèi)容
為了進(jìn)一步優(yōu)化糾錯(cuò)方法,本發(fā)明提供了一種語(yǔ)音識(shí)別文本的智能糾錯(cuò)方法,用于主題式對(duì)話的語(yǔ)音對(duì)話機(jī)器人,包括:利用主題式對(duì)話的歷史無(wú)錯(cuò)文本構(gòu)建糾錯(cuò)詞庫(kù);接收用戶語(yǔ)音輸入,對(duì)所述用戶語(yǔ)音輸入進(jìn)行用戶文本輸入的轉(zhuǎn)換;對(duì)轉(zhuǎn)換后的用戶文本輸入,進(jìn)行分詞處理;使用所述糾錯(cuò)詞庫(kù),對(duì)分詞處理后的各詞進(jìn)行糾錯(cuò)判斷,確定待糾錯(cuò)詞;基于向量相似度,與所述糾錯(cuò)詞庫(kù)中詞向量進(jìn)行相似度匹配;根據(jù)相似度匹配結(jié)果,對(duì)所述待糾錯(cuò)詞進(jìn)行糾錯(cuò)。
優(yōu)選地,所述糾錯(cuò)詞庫(kù)包括示例句、一階詞典和二階詞典。
優(yōu)選地,所述使用所述糾錯(cuò)詞庫(kù),對(duì)分詞處理后的各詞進(jìn)行糾錯(cuò)判斷,確定待糾錯(cuò)詞還包括:基于所述糾錯(cuò)詞庫(kù),對(duì)分詞處理后的單個(gè)詞進(jìn)行頻次統(tǒng)計(jì)計(jì)算;使用一階詞典,并根據(jù)第一判斷規(guī)則確定待糾錯(cuò)詞。
優(yōu)選地,還包括:基于所述糾錯(cuò)詞庫(kù),進(jìn)一步對(duì)分詞處理后的兩個(gè)連續(xù)詞進(jìn)行頻次統(tǒng)計(jì)計(jì)算;使用二階詞典,并根據(jù)第二判斷規(guī)則確定待糾錯(cuò)詞。
優(yōu)選地,還包括:設(shè)定與所述一階詞典和所述二階詞典對(duì)應(yīng)的第一判斷規(guī)則和第二判斷規(guī)則;所述第一判斷規(guī)則包括配置與所述一階詞典中單個(gè)詞相對(duì)應(yīng)的頻次閾值,所述第二判斷規(guī)則包括配置與所述二階詞典中兩個(gè)詞相對(duì)應(yīng)的頻次閾值。
優(yōu)選地,還包括:在所述用戶文本輸入的各詞的頻次計(jì)算值小于所述一階詞典中對(duì)應(yīng)詞的頻次閾值時(shí),確定該詞為待糾錯(cuò)詞。
優(yōu)選地,還包括:在所述用戶文本輸入的兩個(gè)連續(xù)詞的頻次計(jì)算值小于所述二階詞典中對(duì)應(yīng)的兩個(gè)詞的頻次閾值時(shí),確定該兩個(gè)連續(xù)詞為待糾錯(cuò)詞。
優(yōu)選地,所述基于向量相似度,與所述糾錯(cuò)詞庫(kù)中詞向量進(jìn)行相似度匹配包括:對(duì)所述用戶文本輸入進(jìn)行詞向量轉(zhuǎn)換,與所述糾錯(cuò)詞庫(kù)中的示例句進(jìn)行相似度計(jì)算;在所計(jì)算的文本相似度大于設(shè)定閾值時(shí),將篩選出的示例句中的各詞與所述用戶文本輸入的各詞進(jìn)行逐詞匹配,以確定與待糾錯(cuò)詞相對(duì)應(yīng)的正確詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京淇瑀信息科技有限公司,未經(jīng)北京淇瑀信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011191600.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





