[發(fā)明專利]一種漢字處理方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110140933.0 | 申請(qǐng)日: | 2021-02-02 |
| 公開(kāi)(公告)號(hào): | CN112800987B | 公開(kāi)(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 宋維林;鞏穎;鄧嘉鑌;葉小輝;蔡璧鮮;王建 | 申請(qǐng)(專利權(quán))人: | 中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司 |
| 主分類號(hào): | G06V30/32 | 分類號(hào): | G06V30/32;G06V10/764;G06V10/70;G06F3/023;G06F40/289;G06V10/82;G06N3/0442;G06N3/048;G06N3/08 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 余娜;臧建明 |
| 地址: | 100033 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 漢字 處理 方法 裝置 | ||
本申請(qǐng)?zhí)峁┮环N漢字處理方法和裝置,方法包括:接收用戶采用手寫(xiě)模式輸入的第一漢字文本;將第一漢字文本轉(zhuǎn)化為筆順;將筆順輸入預(yù)先訓(xùn)練的模型中,得到第一目標(biāo)文本;其中,預(yù)先訓(xùn)練的模型包括LSTM模型和n?gram模型,LSTM模型用于根據(jù)筆順輸出多個(gè)候選文本,n?gram模型用于基于候選文本的業(yè)務(wù)類型對(duì)候選文本打分,并根據(jù)打分輸出第一目標(biāo)文本。該方法綜合LSTM模型和n?gram模型的優(yōu)點(diǎn),LSTM模型對(duì)手寫(xiě)漢字文本的筆順的預(yù)測(cè),可以識(shí)別錯(cuò)別字并預(yù)判錯(cuò)別字可能對(duì)應(yīng)的字,提升分詞準(zhǔn)確性,n?gram模型基于候選文本的業(yè)務(wù)類型對(duì)候選文本打分,提升候選文本確定的準(zhǔn)確性,從而可以達(dá)到較好地糾正錯(cuò)別字的效果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及通信技術(shù)領(lǐng)域,尤其涉及一種漢字處理方法和裝置。
背景技術(shù)
在電子設(shè)備的使用中,用戶采用拼音或手寫(xiě)輸入漢字時(shí),經(jīng)常出現(xiàn)輸入錯(cuò)誤,產(chǎn)生錯(cuò)別字的情況,例如機(jī)(幾)率、不能自己(已)和發(fā)貼(帖)等,電子設(shè)備需要對(duì)錯(cuò)別字進(jìn)行糾正,才能正常識(shí)別用戶目標(biāo),提供服務(wù)。隨著智能化系統(tǒng)的開(kāi)發(fā)和使用的增多,系統(tǒng)詞庫(kù)維護(hù)越來(lái)越困難。
目前,對(duì)漢字的糾錯(cuò)有兩種方式,一種是基于規(guī)則的糾錯(cuò),將錯(cuò)詞-標(biāo)準(zhǔn)詞對(duì)照,按照錯(cuò)字對(duì)照表進(jìn)行匹配,例如沖值-充值和消戶-銷戶等;另一種是基于統(tǒng)計(jì)的糾錯(cuò),將漢字輸入n元模型(n-gram模型)進(jìn)行判斷糾錯(cuò)。
第一種方式需要大量的維護(hù)人員維護(hù)錯(cuò)字對(duì)照表,并且可能對(duì)錯(cuò)字情況存在遺漏,難以覆蓋所有情況。第二種方式中,n-gram模型對(duì)于包含錯(cuò)別字的詞不能準(zhǔn)確拆分,漢字糾錯(cuò)中效果較差。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供一種漢字處理方法和裝置,預(yù)先訓(xùn)練的LSTM模型對(duì)手寫(xiě)模式輸入的漢字文本中錯(cuò)別字進(jìn)行預(yù)測(cè),判斷錯(cuò)別字可能對(duì)應(yīng)的字或詞,預(yù)先訓(xùn)練的n-gram模型對(duì)可能對(duì)應(yīng)的字或詞進(jìn)行選擇,輸出正確文本,這樣,對(duì)錯(cuò)誤文本進(jìn)行預(yù)測(cè),減少n-gram模型分詞的不準(zhǔn)確,提高系統(tǒng)的糾錯(cuò)效果。
第一方面,本申請(qǐng)實(shí)施例提供一種漢字處理方法,方法包括:接收用戶采用手寫(xiě)模式輸入的第一漢字文本;將第一漢字文本轉(zhuǎn)化為筆順;將筆順輸入預(yù)先訓(xùn)練的模型中,得到第一目標(biāo)文本;其中,預(yù)先訓(xùn)練的模型包括長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM模型和n-gram模型,LSTM模型用于根據(jù)筆順輸出多個(gè)候選文本,n-gram模型用于基于多個(gè)候選文本的業(yè)務(wù)類型對(duì)多個(gè)候選文本進(jìn)行打分,并根據(jù)打分輸出第一目標(biāo)文本。
可選的,將筆順輸入預(yù)先訓(xùn)練的模型中,得到第一目標(biāo)文本,包括:將筆順輸入LSTM模型,得到多個(gè)候選文本;將候選文本輸入n-gram模型;利用n-gram模型確定多個(gè)候選文本對(duì)應(yīng)的業(yè)務(wù)類型;利用n-gram模型根據(jù)多個(gè)候選文本對(duì)應(yīng)的業(yè)務(wù)類型對(duì)多個(gè)候選文本打分;利用n-gram模型根據(jù)多個(gè)候選文本的打分,輸出第一目標(biāo)文本。
可選的,利用n-gram模型根據(jù)多個(gè)候選文本的打分,輸出第一目標(biāo)文本,包括:利用n-gram模型根據(jù)多個(gè)候選文本的打分,輸出多個(gè)候選文本中打分最高的候選文本,其中,打分最高的候選文本為第一目標(biāo)文本。
可選的,利用n-gram模型根據(jù)多個(gè)候選文本的打分,輸出第一目標(biāo)文本,包括:利用n-gram模型根據(jù)多個(gè)候選文本的打分,對(duì)多個(gè)候選文本排序;利用n-gram模型輸出多個(gè)候選文本中排序第一的候選文本,其中,排序第一的候選文本為第一目標(biāo)文本;排序的規(guī)則為依據(jù)打分從高到低進(jìn)行排序。
可選的,LSTM模型是根據(jù)錯(cuò)字語(yǔ)料庫(kù)訓(xùn)練得到的,n-gram模型是根據(jù)日常用戶客服對(duì)話明細(xì)訓(xùn)練得到的。
可選的,方法還包括:接收用戶采用拼寫(xiě)模式輸入的第二漢字文本;將第二漢字文本轉(zhuǎn)化為拼音;將拼音進(jìn)行分詞,得到分詞結(jié)果;將分詞結(jié)果與預(yù)設(shè)的行業(yè)詞-拼音詞典匹配,得到第二目標(biāo)文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,未經(jīng)中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110140933.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





