[發(fā)明專(zhuān)利]一種輸入語(yǔ)句的糾錯(cuò)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201611233791.8 | 申請(qǐng)日: | 2016-12-28 |
| 公開(kāi)(公告)號(hào): | CN107122346B | 公開(kāi)(公告)日: | 2018-02-27 |
| 發(fā)明(設(shè)計(jì))人: | 王健宗;袁威強(qiáng);韓茂琨;肖京 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27;G06F17/30 |
| 代理公司: | 深圳中一專(zhuān)利商標(biāo)事務(wù)所44237 | 代理人: | 陽(yáng)開(kāi)亮 |
| 地址: | 518000 廣東省深*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 輸入 語(yǔ)句 糾錯(cuò) 方法 裝置 | ||
1.一種輸入語(yǔ)句的糾錯(cuò)方法,其特征在于,包括:
基于訓(xùn)練語(yǔ)料構(gòu)建并訓(xùn)練語(yǔ)言模型,所述訓(xùn)練語(yǔ)料是在實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料,所述訓(xùn)練語(yǔ)料包括語(yǔ)篇、語(yǔ)句以及短語(yǔ)三大類(lèi),以N-Gram模型作為所述語(yǔ)言模型的原始模型;
獲取所述語(yǔ)言模型的判錯(cuò)閾值,所述判錯(cuò)閾值表示輸入語(yǔ)句為錯(cuò)誤語(yǔ)句的臨界概率值;
將待識(shí)別語(yǔ)句輸入所述語(yǔ)言模型,以計(jì)算出所述待識(shí)別語(yǔ)句的正確概率;
當(dāng)所述待識(shí)別語(yǔ)句的正確概率低于所述判錯(cuò)閾值時(shí),判定所述待識(shí)別語(yǔ)句為用戶(hù)輸入錯(cuò)誤的錯(cuò)誤語(yǔ)句并對(duì)所述待識(shí)別語(yǔ)句執(zhí)行糾錯(cuò)處理;
所述基于訓(xùn)練語(yǔ)料訓(xùn)練并構(gòu)建語(yǔ)言模型包括:
對(duì)每條所述訓(xùn)練語(yǔ)料執(zhí)行分詞操作,得到多個(gè)詞語(yǔ);
分別計(jì)算每個(gè)所述詞語(yǔ)在訓(xùn)練語(yǔ)料中與其后鄰接詞之間的條件概率;
將所述多個(gè)詞語(yǔ)對(duì)應(yīng)的所述條件概率相乘,并根據(jù)相乘后得到的結(jié)果,構(gòu)建并訓(xùn)練所述語(yǔ)言模型;
其中,所述條件概率的計(jì)算過(guò)程包括:
獲取所述詞語(yǔ)在所有所述訓(xùn)練語(yǔ)料中出現(xiàn)的第一次數(shù),及獲取所述詞語(yǔ)的后鄰接詞在所有所述訓(xùn)練語(yǔ)料中出現(xiàn)在所述詞語(yǔ)的后鄰接位置的第二次數(shù);
根據(jù)所述第一次數(shù)以及所述第二次數(shù),計(jì)算所述詞語(yǔ)與對(duì)應(yīng)的所述后鄰接詞之間的條件概率;
所述獲取所述語(yǔ)言模型的判錯(cuò)閾值包括:
分別將M條錯(cuò)誤語(yǔ)句與N條正確語(yǔ)句作為測(cè)試語(yǔ)料輸入所述語(yǔ)言模型,得到每條所述錯(cuò)誤語(yǔ)句的所述正確概率與每條所述正確語(yǔ)句的所述正確概率;
通過(guò)預(yù)設(shè)算法對(duì)每條所述錯(cuò)誤語(yǔ)句的所述正確概率與每條所述正確語(yǔ)句的所述正確概率進(jìn)行統(tǒng)計(jì)處理,得到所述語(yǔ)言模型的判錯(cuò)閾值;
其中,所述M和N為大于1的整數(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述判定所述待識(shí)別語(yǔ)句為用戶(hù)輸入錯(cuò)誤的錯(cuò)誤語(yǔ)句并對(duì)所述待識(shí)別語(yǔ)句執(zhí)行糾錯(cuò)處理包括:
生成所述待識(shí)別語(yǔ)句的多條候選語(yǔ)句;
利用所述語(yǔ)言模型,分別輸出每條所述候選語(yǔ)句的所述正確概率;
在所有所述候選語(yǔ)句中確定出所述正確概率最大的一條所述候選語(yǔ)句,并將所述待識(shí)別語(yǔ)句糾正為該候選語(yǔ)句。
3.如權(quán)利要求2所述的方法,其特征在于,所述生成所述待識(shí)別語(yǔ)句的多條候選語(yǔ)句包括:
獲取所述待識(shí)別語(yǔ)句中每個(gè)詞語(yǔ)對(duì)應(yīng)的音似詞及同音詞;
將所述待識(shí)別語(yǔ)句中的至少一個(gè)所述詞語(yǔ)替換為所述詞語(yǔ)對(duì)應(yīng)的所述音似詞或所述同音詞;
將完成替換后的每一條所述待識(shí)別語(yǔ)句分別輸出為一條所述待識(shí)別語(yǔ)句的所述候選語(yǔ)句。
4.一種輸入語(yǔ)句的糾錯(cuò)裝置,其特征在于,包括:
構(gòu)建單元,用于基于訓(xùn)練語(yǔ)料構(gòu)建并訓(xùn)練語(yǔ)言模型,所述訓(xùn)練語(yǔ)料是在實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料,所述訓(xùn)練語(yǔ)料包括語(yǔ)篇、語(yǔ)句以及短語(yǔ)三大類(lèi),以N-Gram模型作為所述語(yǔ)言模型的原始模型;
獲取單元,用于獲取所述語(yǔ)言模型的判錯(cuò)閾值,所述判錯(cuò)閾值表示輸入語(yǔ)句為錯(cuò)誤語(yǔ)句的臨界概率值;
計(jì)算單元,用于將待識(shí)別語(yǔ)句輸入所述語(yǔ)言模型,以計(jì)算出所述待識(shí)別語(yǔ)句的正確概率;
糾錯(cuò)單元,用于當(dāng)所述待識(shí)別語(yǔ)句的正確概率低于所述判錯(cuò)閾值時(shí),判定所述待識(shí)別語(yǔ)句為用戶(hù)輸入錯(cuò)誤的錯(cuò)誤語(yǔ)句并對(duì)所述待識(shí)別語(yǔ)句執(zhí)行糾錯(cuò)處理;
所述構(gòu)建單元包括:
分詞單元,用于對(duì)每條所述訓(xùn)練語(yǔ)料執(zhí)行分詞操作,得到多個(gè)詞語(yǔ);
條件概率計(jì)算單元,用于分別計(jì)算每個(gè)所述詞語(yǔ)在訓(xùn)練語(yǔ)料中與其后鄰接詞之間的條件概率;
乘法單元,用于將所述多個(gè)詞語(yǔ)對(duì)應(yīng)的所述條件概率相乘,并根據(jù)相乘后得到的結(jié)果,構(gòu)建并訓(xùn)練所述語(yǔ)言模型;
其中,所述條件概率計(jì)算單元具體用于:
獲取所述詞語(yǔ)在所有所述訓(xùn)練語(yǔ)料中出現(xiàn)的第一次數(shù),及獲取所述詞語(yǔ)的后鄰接詞在所有所述訓(xùn)練語(yǔ)料中出現(xiàn)在所述詞語(yǔ)的后鄰接位置的第二次數(shù);
根據(jù)所述第一次數(shù)以及所述第二次數(shù),計(jì)算所述詞語(yǔ)與對(duì)應(yīng)的所述后鄰接詞之間的條件概率;
所述獲取單元包括:
輸入子單元,用于分別將M條錯(cuò)誤語(yǔ)句與N條正確語(yǔ)句作為測(cè)試語(yǔ)料輸入所述語(yǔ)言模型,得到每條所述錯(cuò)誤語(yǔ)句的所述正確概率與每條所述正確語(yǔ)句的所述正確概率;
統(tǒng)計(jì)子單元,用于通過(guò)預(yù)設(shè)算法對(duì)每條所述錯(cuò)誤語(yǔ)句的所述正確概率與每條所述正確語(yǔ)句的所述正確概率進(jìn)行統(tǒng)計(jì)處理,得到所述語(yǔ)言模型的判錯(cuò)閾值;
其中,所述M和N為大于1的整數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611233791.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于聊天大數(shù)據(jù)知識(shí)庫(kù)的機(jī)器人對(duì)話(huà)控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對(duì)話(huà)控制方法和系統(tǒng)
- 基于對(duì)話(huà)知識(shí)庫(kù)的機(jī)器人對(duì)話(huà)控制方法和系統(tǒng)
- 一種自然語(yǔ)言語(yǔ)句評(píng)價(jià)方法及裝置
- 句子級(jí)雙語(yǔ)對(duì)齊方法及系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





