[發(fā)明專利]一種智能化文本糾錯(cuò)模型訓(xùn)練方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110371422.X | 申請(qǐng)日: | 2021-04-07 |
| 公開(kāi)(公告)號(hào): | CN112989806A | 公開(kāi)(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計(jì))人: | 黃志春;張定國(guó);伍宇文;李韌;康文靜 | 申請(qǐng)(專利權(quán))人: | 廣州偉宏智能科技有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/242;G06F40/216;G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 佛山市神機(jī)營(yíng)專利代理事務(wù)所(普通合伙) 44765 | 代理人: | 許尤慶 |
| 地址: | 510000 廣東省廣州市天河區(qū)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能化 文本 糾錯(cuò) 模型 訓(xùn)練 方法 | ||
本發(fā)明公開(kāi)了一種智能化文本糾錯(cuò)模型訓(xùn)練方法,包括以下步驟:S1、獲取待糾錯(cuò)文本;S2、錯(cuò)誤檢測(cè),對(duì)待糾錯(cuò)文本進(jìn)行錯(cuò)誤檢測(cè),所述錯(cuò)誤檢測(cè)包括基于規(guī)則的錯(cuò)誤檢測(cè)和基于模型的錯(cuò)誤檢測(cè);S3、候選召回,對(duì)檢測(cè)后的文本進(jìn)行候選召回,通過(guò)語(yǔ)言模型和混淆詞典來(lái)召回正確的候選詞;S4、候選排序,通過(guò)排序算法對(duì)召回的候選詞進(jìn)行打分排序,選擇分?jǐn)?shù)最高的一項(xiàng)進(jìn)行替換;S5、候選篩選,得到最優(yōu)的糾正方案。該種智能化文本糾錯(cuò)模型訓(xùn)練方法,通過(guò)待糾錯(cuò)文本進(jìn)行錯(cuò)誤檢測(cè)、候選召回和候選排序三個(gè)主要流程,有效提高了文本糾錯(cuò)的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及智能文本分析技術(shù)領(lǐng)域,具體為一種智能化文本糾錯(cuò)模型訓(xùn)練方法。
背景技術(shù)
文本糾錯(cuò)技術(shù)是實(shí)現(xiàn)中文語(yǔ)句自動(dòng)檢查、自動(dòng)糾錯(cuò)的一項(xiàng)重要技術(shù),其目的是提高語(yǔ)言正確性的同時(shí)減少人工校驗(yàn)成本。糾錯(cuò)模塊作為自然語(yǔ)言處理最基礎(chǔ)的模塊,其重要程度不言而喻。在日常生活中,我們經(jīng)常會(huì)在微信、微博等社交工具或公眾號(hào)文章中發(fā)現(xiàn)許多錯(cuò)別字,同時(shí)隨著各自社交網(wǎng)站的發(fā)展,語(yǔ)音對(duì)話在社交軟件中在不斷普及,為了使得接收語(yǔ)音方在不方便接收語(yǔ)音時(shí),也能及時(shí)接收到對(duì)方發(fā)送的內(nèi)容,因此語(yǔ)音對(duì)話也開(kāi)始出現(xiàn)轉(zhuǎn)文字的功能。但是由于語(yǔ)音對(duì)話較為口語(yǔ)化,在轉(zhuǎn)文字過(guò)程中,容易出現(xiàn)錯(cuò)誤句子,最終會(huì)導(dǎo)致接收方不明確對(duì)方的意圖。
現(xiàn)有技術(shù)中為了實(shí)現(xiàn)文本糾錯(cuò)的功能,主要是通過(guò)利用基于規(guī)則的模型或基于統(tǒng)計(jì)的模型生成針對(duì)待糾正文本的多個(gè)候選文本,利用評(píng)分函數(shù)或者分類器對(duì)多個(gè)候選文本進(jìn)行排序,從多個(gè)候選文本中篩選出最合理的文本。然而在基于規(guī)則的模型或者基于統(tǒng)計(jì)的模型進(jìn)行文本糾錯(cuò)過(guò)程中,文本糾錯(cuò)的準(zhǔn)確率較低,文本糾錯(cuò)效果并不能滿足現(xiàn)階段用戶對(duì)文本糾錯(cuò)功能的需求,因此我們對(duì)此做出改進(jìn),提出一種智能化文本糾錯(cuò)模型訓(xùn)練方法。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了如下的技術(shù)方案:
本發(fā)明一種智能化文本糾錯(cuò)模型訓(xùn)練方法,包括以下步驟:
S1、獲取待糾錯(cuò)文本;
S2、錯(cuò)誤檢測(cè),對(duì)待糾錯(cuò)文本進(jìn)行錯(cuò)誤檢測(cè),所述錯(cuò)誤檢測(cè)包括基于規(guī)則的錯(cuò)誤檢測(cè)和基于模型的錯(cuò)誤檢測(cè);
S3、候選召回,對(duì)檢測(cè)后的文本進(jìn)行候選召回,通過(guò)語(yǔ)言模型和混淆詞典來(lái)召回正確的候選詞;
S4、候選排序,通過(guò)排序算法對(duì)召回的候選詞進(jìn)行打分排序,選擇分?jǐn)?shù)最高的一項(xiàng)進(jìn)行替換;
S5、候選篩選,得到最優(yōu)的糾正方案。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,S2中所述基于規(guī)則的錯(cuò)誤檢測(cè)包括拼音匹配檢測(cè)和雙向2gram檢測(cè);所述拼音匹配檢測(cè)通過(guò)建立拼音到實(shí)體的映射字典,完成錯(cuò)詞到拼音到實(shí)體的糾錯(cuò)流程;所述雙向2gram檢測(cè)是將語(yǔ)料中所有2gram的聯(lián)合概率分布擬定為正態(tài)分布,通過(guò)正確2gram片段的出現(xiàn)概率遠(yuǎn)大于錯(cuò)誤出現(xiàn)的概率來(lái)完成錯(cuò)誤檢測(cè)。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,S2中所述基于模型的錯(cuò)誤檢測(cè)包括基于nn語(yǔ)言錯(cuò)誤檢測(cè)和基于BiLstm改造的音字混合受限字表語(yǔ)言模型錯(cuò)誤檢測(cè)。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,所述基于nn語(yǔ)言錯(cuò)誤檢測(cè)是通過(guò)完形填空的方式來(lái)預(yù)測(cè)候選字的概率分布,若原字的概率不在topk里或與top1比值超過(guò)閾值,則認(rèn)為有錯(cuò);所述基于BiLstm改造的音字混合受限字表語(yǔ)言模型錯(cuò)誤檢測(cè),是利用BiLstm,前向Lstm從左到右學(xué)習(xí),后向Lstm從后到左學(xué)習(xí),然后合并兩個(gè)得到,得到先與輸入的字向量做Attention得到,然后與拼接得到;再用與候選字向量做Attention,用Attention后的分?jǐn)?shù)作為預(yù)測(cè)概率分布。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,S3中所述混淆詞典包括基于近音、近型、編輯距離的1、2gram混淆詞典,將1gram詞及詞頻和1gram近音詞詞典使用雙數(shù)組字典樹(shù)存儲(chǔ),而2gram詞典采用CSR數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),2gram的近音混淆詞可以從以上詞典里恢復(fù)出來(lái)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州偉宏智能科技有限公司,未經(jīng)廣州偉宏智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110371422.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:機(jī)器人用諧波減速器性能測(cè)試平臺(tái)
- 下一篇:冰箱
- 火電機(jī)組智能化的協(xié)調(diào)控制方法
- 一種終端與智能化設(shè)備的連接方法及裝置
- 一種智能照明中節(jié)能率的計(jì)算方法
- 智能化設(shè)備的控制方法、系統(tǒng)、智能終端及存儲(chǔ)介質(zhì)
- 稻作區(qū)智能調(diào)控高效節(jié)水裝置
- 一種企業(yè)智能化改造通用系統(tǒng)
- 電網(wǎng)運(yùn)行智能調(diào)控系統(tǒng)的智能化程度分級(jí)方法及裝置
- 基于智能家居系統(tǒng)的智能化服務(wù)方法及智能家居系統(tǒng)
- 基于日程信息的智能化服務(wù)方法及智能家居系統(tǒng)
- 一種智能化便攜式教育儀
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





