[發(fā)明專(zhuān)利]錯(cuò)詞糾正方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010581289.6 | 申請(qǐng)日: | 2020-06-23 |
| 公開(kāi)(公告)號(hào): | CN111695343A | 公開(kāi)(公告)日: | 2020-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 邱煜 | 申請(qǐng)(專(zhuān)利權(quán))人: | 深圳壹賬通智能科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/232 | 分類(lèi)號(hào): | G06F40/232;G06F40/289;G06F40/205 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518052 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 糾正 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種錯(cuò)詞糾正方法,其特征在于,所述錯(cuò)詞糾正方法包括:
獲取待處理的自然語(yǔ)言文本;
基于網(wǎng)頁(yè)爬取生成的易錯(cuò)詞庫(kù),對(duì)所述自然語(yǔ)言文本進(jìn)行預(yù)糾正,得到第一文本;
對(duì)所述第一文本進(jìn)行分詞和序列標(biāo)注,得到文本子詞和對(duì)應(yīng)的標(biāo)注類(lèi)型,其中所述標(biāo)注類(lèi)型包括正確類(lèi)、錯(cuò)誤起點(diǎn)類(lèi)和錯(cuò)誤內(nèi)容類(lèi);
基于預(yù)置候選字詞表,生成所述錯(cuò)誤起點(diǎn)類(lèi)和所述錯(cuò)誤內(nèi)容類(lèi)的文本子詞對(duì)應(yīng)的備選字詞,并將所述備選字詞依次寫(xiě)入所述第一文本中的對(duì)應(yīng)位置,分別得到對(duì)應(yīng)的第二文本,其中,所述候選字詞表包括常用字候選字、常用詞候選詞和專(zhuān)業(yè)詞候選詞;
計(jì)算各所述第二文本的困惑度值并相互進(jìn)行大小比較,將最小困惑度值對(duì)應(yīng)的第二文本作為正確文本輸出。
2.根據(jù)權(quán)利要求1所述的錯(cuò)詞糾正方法,其特征在于,所述易錯(cuò)詞庫(kù)存儲(chǔ)于區(qū)塊鏈中,所述基于網(wǎng)頁(yè)爬取生成的易錯(cuò)詞庫(kù),對(duì)所述自然語(yǔ)言文本進(jìn)行預(yù)糾正,得到第一文本包括:
對(duì)所述自然語(yǔ)言文本進(jìn)行分詞,得到多個(gè)詞語(yǔ);
基于網(wǎng)頁(yè)爬取生成的易錯(cuò)詞庫(kù),篩選所述各詞語(yǔ)中的易錯(cuò)詞,其中所述易錯(cuò)詞庫(kù)包括易錯(cuò)詞和對(duì)應(yīng)的正確詞;
將所述正確詞寫(xiě)入所述自然語(yǔ)言文本中易錯(cuò)詞的位置,以替換所述易錯(cuò)詞,得到所述第一文本。
3.根據(jù)權(quán)利要求1所述的錯(cuò)詞糾正方法,其特征在于,所述對(duì)所述第一文本進(jìn)行分詞和序列標(biāo)注,得到文本子詞和對(duì)應(yīng)的標(biāo)注類(lèi)型包括:
以字為單位,對(duì)所述第一文本進(jìn)行分詞,得到所述第一文本對(duì)應(yīng)的文本子詞;
對(duì)所述文本子詞進(jìn)行位置編碼,得到所述文本子詞的向量;
對(duì)所述向量對(duì)應(yīng)的文本子詞進(jìn)行序列標(biāo)注,得到所述文本子詞對(duì)應(yīng)的標(biāo)注類(lèi)型。
4.根據(jù)權(quán)利要求3所述的錯(cuò)詞糾正方法,其特征在于,所述對(duì)所述向量對(duì)應(yīng)的文本子詞進(jìn)行序列標(biāo)注,得到所述文本子詞對(duì)應(yīng)的標(biāo)注類(lèi)型包括:
將所述向量映射到預(yù)置標(biāo)注類(lèi)型矩陣中,得到所述向量在各個(gè)標(biāo)注類(lèi)型下的評(píng)價(jià)分?jǐn)?shù),其中,所述標(biāo)注類(lèi)型矩陣的標(biāo)注類(lèi)型包括正確類(lèi)、錯(cuò)誤起點(diǎn)類(lèi)和錯(cuò)誤內(nèi)容類(lèi);
根據(jù)預(yù)置分?jǐn)?shù)閾值,將小于所述分?jǐn)?shù)閾值的評(píng)價(jià)分?jǐn)?shù)減為零;
將對(duì)所述評(píng)價(jià)分?jǐn)?shù)進(jìn)行歸一化,得到將所述向量對(duì)應(yīng)的文本子詞對(duì)應(yīng)各個(gè)標(biāo)注類(lèi)型的標(biāo)注概率值;
對(duì)所述標(biāo)注概率值進(jìn)行大小比較,并將所述標(biāo)注概率值最大的標(biāo)注類(lèi)型作為所述文本子詞對(duì)應(yīng)的標(biāo)注類(lèi)型。
5.根據(jù)權(quán)利要求1所述的錯(cuò)詞糾正方法,其特征在于,所述候選字詞表存儲(chǔ)于區(qū)塊鏈中,所述基于預(yù)置候選字詞表,生成所述錯(cuò)誤起點(diǎn)類(lèi)和所述錯(cuò)誤內(nèi)容類(lèi)的文本子詞對(duì)應(yīng)的備選字詞,并將所述備選字詞依次寫(xiě)入所述第一文本中的對(duì)應(yīng)位置,分別得到對(duì)應(yīng)的第二文本包括:
將所述錯(cuò)誤起點(diǎn)類(lèi)和所述錯(cuò)誤內(nèi)容類(lèi)的文本子詞作為候選錯(cuò)詞;
根據(jù)所述候選字詞表,確定所述候選錯(cuò)詞對(duì)應(yīng)的候選字詞;
將所述候選字詞進(jìn)行隨機(jī)組合,得到所述候選錯(cuò)詞對(duì)應(yīng)的備選字詞;
所述備選字詞依次寫(xiě)入所述第一文本中的對(duì)應(yīng)位置,以替換所述候選錯(cuò)詞,分別得到對(duì)應(yīng)的第二文本。
6.根據(jù)權(quán)利要求1所述的錯(cuò)詞糾正方法,其特征在于,所述計(jì)算各所述第二文本的困惑度值并相互進(jìn)行大小比較,將最小困惑度值對(duì)應(yīng)的第二文本作為正確文本輸出包括:
基于預(yù)置n-gram語(yǔ)言模型,計(jì)算各所述第二文本的困惑度值;
對(duì)各所述困惑度值進(jìn)行大小比較;
將最小困惑度值對(duì)應(yīng)的第二文本作為正確文本輸出。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于深圳壹賬通智能科技有限公司,未經(jīng)深圳壹賬通智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581289.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動(dòng)設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





