[發(fā)明專利]一種文本糾錯方法及裝置在審
| 申請?zhí)枺?/td> | 202011442529.0 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112560450A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計)人: | 王曉;王琳博;許勝強(qiáng);胡加學(xué) | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 馮柳偉 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 糾錯 方法 裝置 | ||
本申請公開了一種文本糾錯方法及裝置,該方法包括:在獲取到目標(biāo)領(lǐng)域下的待糾錯文本后,先從待糾錯文本中確定待糾錯對象,并根據(jù)該待糾錯對象、通用混淆集和專用混淆集,確定該待糾錯對象的候選混淆對象;再根據(jù)該待糾錯文本、該待糾錯對象和該待糾錯對象的候選混淆對象,生成該待糾錯文本對應(yīng)的糾錯后文本。其中,因通用混淆集用于記錄通用易混淆對象對之間的對應(yīng)關(guān)系,且專用混淆集用于記錄目標(biāo)領(lǐng)域下專用易混淆對象對之間的對應(yīng)關(guān)系,使得基于通用混淆集和專用混淆集確定的候選混淆對象不僅包括通用易混淆對象,還包括在目標(biāo)領(lǐng)域下特有的專用易混淆對象,如此使得該候選混淆對象更全面,從而使得基于該候選混淆對象生成的糾錯后文本更準(zhǔn)確。
技術(shù)領(lǐng)域
本申請涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本糾錯方法及裝置。
背景技術(shù)
文本糾錯技術(shù)屬于自然語言處理(Natural Language Processing,NLP)研究下的一個重要課題。其中,文本糾錯技術(shù)用于對文本數(shù)據(jù)中的錯誤字詞進(jìn)行糾正,以提高該文本數(shù)據(jù)的準(zhǔn)確性,從而使得后續(xù)基于該文本數(shù)據(jù)進(jìn)行的文本處理過程(例如,語義分析、意圖理解、信息提取等)更準(zhǔn)確。
然而,因現(xiàn)有的文本糾錯技術(shù)的糾錯準(zhǔn)確性較低,導(dǎo)致如何提高文本糾錯準(zhǔn)確性是一個亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本申請實施例的主要目的在于提供一種文本糾錯方法及裝置,能夠提高文本糾錯準(zhǔn)確性。
本申請實施例提供了一種文本糾錯方法,所述方法包括:
獲取目標(biāo)領(lǐng)域下的待糾錯文本;
從所述待糾錯文本中確定待糾錯對象;
根據(jù)所述待糾錯對象、預(yù)先構(gòu)建的通用混淆集和預(yù)先構(gòu)建的專用混淆集,確定所述待糾錯對象的候選混淆對象;其中,所述通用混淆集用于記錄通用易混淆對象對之間的對應(yīng)關(guān)系;所述專用混淆集用于記錄所述目標(biāo)領(lǐng)域下專用易混淆對象對之間的對應(yīng)關(guān)系;
根據(jù)所述待糾錯文本、所述待糾錯對象和所述待糾錯對象的候選混淆對象,生成所述待糾錯文本對應(yīng)的糾錯后文本。
本申請實施例還提供了一種文本糾錯裝置,所述裝置包括:
獲取單元,用于獲取目標(biāo)領(lǐng)域下的待糾錯文本;
提取單元,用于從所述待糾錯文本中確定待糾錯對象;
確定單元,用于根據(jù)所述待糾錯對象、預(yù)先構(gòu)建的通用混淆集和預(yù)先構(gòu)建的專用混淆集,確定所述待糾錯對象的候選混淆對象;其中,所述通用混淆集用于記錄通用易混淆對象對之間的對應(yīng)關(guān)系;所述專用混淆集用于記錄所述目標(biāo)領(lǐng)域下專用易混淆對象對之間的對應(yīng)關(guān)系;
糾錯單元,用于根據(jù)所述待糾錯文本、所述待糾錯對象和所述待糾錯對象的候選混淆對象,生成所述待糾錯文本對應(yīng)的糾錯后文本。
本申請實施例還提供了一種文本糾錯設(shè)備,所述設(shè)備包括:處理器、存儲器、系統(tǒng)總線;
所述處理器以及所述存儲器通過所述系統(tǒng)總線相連;
所述存儲器用于存儲一個或多個程序,所述一個或多個程序包括指令,所述指令當(dāng)被所述處理器執(zhí)行時使所述處理器執(zhí)行本申請實施例提供的文本糾錯方法的任一實施方式。
本申請實施例還提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有指令,當(dāng)所述指令在終端設(shè)備上運行時,使得所述終端設(shè)備執(zhí)行本申請實施例提供的文本糾錯方法的任一實施方式。
基于上述技術(shù)方案,本申請具有以下有益效果:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011442529.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





