[發(fā)明專利]語音文本錯誤處理方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210582744.3 | 申請日: | 2022-05-26 |
| 公開(公告)號: | CN114676685B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設(shè)計)人: | 李亞桐;彭子嬌 | 申請(專利權(quán))人: | 深圳市聲揚科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06F40/289;G10L15/04 |
| 代理公司: | 深圳市智圈知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44351 | 代理人: | 李璇 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 文本 錯誤 處理 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本申請實施例提供一種語音文本錯誤處理方法、裝置、電子設(shè)備及存儲介質(zhì),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域。通過獲取標(biāo)準(zhǔn)語料和用戶語料;分別對標(biāo)準(zhǔn)語料和用戶語料進行分詞,得到標(biāo)準(zhǔn)語料對應(yīng)的第一字符串和用戶語料對應(yīng)的第二字符串,其中,第一字符串和第二字符串均包括由分詞得到的多個詞匯;基于第一字符串和第二字符串的差異,獲取第二字符串中的詞匯的錯誤類型;根據(jù)錯誤類型對第二字符串中的詞匯進行合并,基于合并結(jié)果顯示錯誤提示信息,其中,錯誤提示信息用于對用戶語料進行錯誤標(biāo)注,從而可以提高標(biāo)注錯誤詞匯的準(zhǔn)確率,改善由于分詞導(dǎo)致的對詞匯的錯誤類型標(biāo)注不準(zhǔn)確的問題。
技術(shù)領(lǐng)域
本申請實施例涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別地,涉及一種語音文本錯誤處理方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
目前,例如Word這樣及其類似的軟件通常具備拼寫錯誤糾正的提示功能。對于英文等非漢字體系的語言而言,此類錯誤糾正的提示功能帶給用戶的體驗感較好。以英文為例,每個獨立的詞匯通過空格間隔開來,使得在詞匯錯誤提示上會將整個英文詞匯進行錯誤標(biāo)記。然而,中文詞匯通常包括至少兩個漢字,而漢字與漢字之間不存在任何間隔符,導(dǎo)致不能準(zhǔn)確對中文詞匯進行劃分,從而導(dǎo)致難以對中文詞匯進行錯誤提示。
發(fā)明內(nèi)容
本申請實施例提供一種語音文本錯誤處理方法、裝置、電子設(shè)備及存儲介質(zhì),以改善上述問題。
第一方面,本申請實施例提供一種語音文本錯誤處理方法。該方法主要包括:獲取標(biāo)準(zhǔn)語料和用戶語料;分別對標(biāo)準(zhǔn)語料和用戶語料進行分詞,得到標(biāo)準(zhǔn)語料對應(yīng)的第一字符串和用戶語料對應(yīng)的第二字符串,其中,第一字符串和第二字符串均包括由分詞得到的多個詞匯;基于第一字符串和第二字符串的差異,獲取第二字符串中的詞匯的錯誤類型;根據(jù)錯誤類型對第二字符串中的詞匯進行合并,基于合并結(jié)果顯示錯誤提示信息,其中,錯誤提示信息用于對用戶語料進行錯誤標(biāo)注。
第二方面,本申請實施例提供一種語音文本錯誤處理裝置。該裝置主要包括第一獲取模塊、分詞模塊、第二獲取模塊以及合并模塊。其中,第一獲取模塊用于獲取標(biāo)準(zhǔn)語料和用戶語料。分詞模塊用于分別對標(biāo)準(zhǔn)語料和用戶語料進行分詞,得到標(biāo)準(zhǔn)語料對應(yīng)的第一字符串和用戶語料對應(yīng)的第二字符串,其中,第一字符串和第二字符串均包括由分詞得到的多個詞匯。第二獲取模塊用于基于第一字符串和第二字符串的差異,獲取第二字符串中的詞匯的錯誤類型。合并模塊用于根據(jù)錯誤類型對第二字符串中的詞匯進行合并,基于合并結(jié)果顯示錯誤提示信息,其中,錯誤提示信息用于對用戶語料進行錯誤標(biāo)注。
第三方面,本申請實施例提供一種電子設(shè)備。該電子設(shè)備主要包括存儲器、一個或多個處理器以及一個或多個應(yīng)用程序。其中,一個或多個應(yīng)用程序被存儲在存儲器中,并被配置為當(dāng)被一個或多個處理器調(diào)用時執(zhí)行本申請實施例提供的語音文本錯誤處理方法。
第四方面,本申請實施例提供一種計算機可讀取存儲介質(zhì)。該計算機可讀取存儲介質(zhì)中存儲有程序代碼,該程序代碼被配置為當(dāng)被處理器調(diào)用時執(zhí)行本申請實施例提供的語音文本錯誤處理方法。
本申請實施例提供一種語音文本錯誤處理方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法主要通過獲取標(biāo)準(zhǔn)語料和用戶語料;分別對標(biāo)準(zhǔn)語料和用戶語料進行分詞,得到標(biāo)準(zhǔn)語料對應(yīng)的第一字符串和用戶語料對應(yīng)的第二字符串,其中,第一字符串和第二字符串均包括由分詞得到的多個詞匯;基于第一字符串和第二字符串的差異,獲取第二字符串中的詞匯的錯誤類型;根據(jù)錯誤類型對第二字符串中的詞匯進行合并,基于合并結(jié)果顯示錯誤提示信息,其中,錯誤提示信息用于對用戶語料進行錯誤標(biāo)注,從而可以在分詞之后,根據(jù)錯誤類型對分詞之后的詞匯進行合并,從而提高標(biāo)注錯誤詞匯的準(zhǔn)確率,改善由于分詞導(dǎo)致的對詞匯的錯誤類型標(biāo)注不準(zhǔn)確的問題。
附圖說明
為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市聲揚科技有限公司,未經(jīng)深圳市聲揚科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210582744.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





