[發(fā)明專利]錯(cuò)句檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201910343889.6 | 申請(qǐng)日: | 2019-04-26 |
| 公開(kāi)(公告)號(hào): | CN110211571B | 公開(kāi)(公告)日: | 2023-05-26 |
| 發(fā)明(設(shè)計(jì))人: | 張勇;馬駿;王少軍 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/08;G10L25/51;G10L15/26 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 檢測(cè) 方法 裝置 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及語(yǔ)音語(yǔ)義技術(shù)領(lǐng)域,公開(kāi)了一種錯(cuò)句檢測(cè)方法,該方法包括:獲取目標(biāo)語(yǔ)句;識(shí)別目標(biāo)語(yǔ)句包含的i個(gè)詞語(yǔ)組成;將i個(gè)詞語(yǔ)依據(jù)在目標(biāo)語(yǔ)句中的順序依次輸入至預(yù)先訓(xùn)練的語(yǔ)言模型,通過(guò)語(yǔ)言模型計(jì)算目標(biāo)語(yǔ)句的困惑度和/或?qū)?shù)似然概率;當(dāng)目標(biāo)語(yǔ)句的困惑度大于預(yù)設(shè)困惑度和/或目標(biāo)語(yǔ)句的對(duì)數(shù)似然概率小于預(yù)設(shè)對(duì)數(shù)似然概率時(shí),判斷目標(biāo)語(yǔ)句為錯(cuò)句。本發(fā)明還提出一種錯(cuò)句檢測(cè)裝置以及一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。本發(fā)明可以對(duì)語(yǔ)句是否為錯(cuò)句進(jìn)行識(shí)別。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音語(yǔ)義技術(shù)領(lǐng)域,尤其涉及一種錯(cuò)句檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著技術(shù)的發(fā)展,自動(dòng)語(yǔ)音識(shí)別(Automatic?Speech?Recognition,ASR)技術(shù)的應(yīng)用越來(lái)越廣泛,ASR技術(shù)是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。ASR技術(shù)應(yīng)用過(guò)程中,由于背景噪聲的影響,或者說(shuō)話人發(fā)音的影響,例如方言、口音、說(shuō)話較快、用詞用語(yǔ)習(xí)慣等,ASR識(shí)別結(jié)果中不可避免的會(huì)出現(xiàn)替換、插入或刪除錯(cuò)誤。這些識(shí)別錯(cuò)誤會(huì)導(dǎo)致識(shí)別語(yǔ)句有可能存在詞序不當(dāng)、搭配不當(dāng)、語(yǔ)義不明、語(yǔ)句不合邏輯等問(wèn)題,形成錯(cuò)句。這些錯(cuò)句不僅理解和分析困難,而且給后續(xù)的自然語(yǔ)言處理(Natural?Language?Processing,NLP)應(yīng)用帶來(lái)了極大的困難。除了ASR技術(shù)得到的語(yǔ)句,手動(dòng)在計(jì)算機(jī)中輸入的語(yǔ)句也可能存在錯(cuò)誤。因此,對(duì)語(yǔ)句的正確與否進(jìn)行識(shí)別具有一定的現(xiàn)實(shí)意義和必要性。
發(fā)明內(nèi)容
本發(fā)明提供一種錯(cuò)句檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其主要目的在于能夠?qū)φZ(yǔ)句是否為錯(cuò)句進(jìn)行識(shí)別。
為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種錯(cuò)句檢測(cè)方法,該方法包括:
獲取通過(guò)自動(dòng)語(yǔ)音識(shí)別技術(shù)得到的目標(biāo)語(yǔ)句;
獲取所述目標(biāo)語(yǔ)句包含的第i段文字,判斷預(yù)設(shè)詞典中是否存在與所述第i段文字相匹配的詞語(yǔ),其中,i的初始值為1,i為正整數(shù);
若所述預(yù)設(shè)詞典中不存在與所述第i段文字相匹配的詞語(yǔ),調(diào)整所述第i段文字的字?jǐn)?shù),判斷所述預(yù)設(shè)詞典中是否存在與所述第i段文字相匹配的詞語(yǔ);
若所述預(yù)設(shè)詞典中存在與所述第i段文字相匹配的詞語(yǔ),確定所述第i段文字為所述目標(biāo)語(yǔ)句的第i個(gè)詞語(yǔ),令i=i+1,獲取所述目標(biāo)語(yǔ)句包含的第i段文字,判斷預(yù)設(shè)詞典中是否存在與所述第i段文字相匹配的詞語(yǔ);
當(dāng)i個(gè)詞語(yǔ)的總字?jǐn)?shù)與所述目標(biāo)語(yǔ)句的總字?jǐn)?shù)相同時(shí),確定所述目標(biāo)語(yǔ)句由所述i個(gè)詞語(yǔ)組成;
將所述i個(gè)詞語(yǔ)依據(jù)在所述目標(biāo)語(yǔ)句中的順序依次輸入至預(yù)先訓(xùn)練的語(yǔ)言模型,通過(guò)所述語(yǔ)言模型計(jì)算所述目標(biāo)語(yǔ)句的困惑度和/或?qū)?shù)似然概率;
當(dāng)所述目標(biāo)語(yǔ)句的困惑度大于預(yù)設(shè)困惑度和/或所述目標(biāo)語(yǔ)句的對(duì)數(shù)似然概率小于預(yù)設(shè)對(duì)數(shù)似然概率時(shí),判斷所述目標(biāo)語(yǔ)句為錯(cuò)句。
可選地,所述將所述i個(gè)詞語(yǔ)依據(jù)在所述目標(biāo)語(yǔ)句中的順序依次輸入至預(yù)先訓(xùn)練的語(yǔ)言模型包括:
判斷所述i個(gè)詞語(yǔ)中是否存在預(yù)設(shè)關(guān)鍵詞;
若所述i個(gè)詞語(yǔ)中存在預(yù)設(shè)關(guān)鍵詞,將所述i個(gè)詞語(yǔ)中所述預(yù)設(shè)關(guān)鍵詞以外的詞語(yǔ)依據(jù)在所述目標(biāo)語(yǔ)句中的順序依次輸入至預(yù)先訓(xùn)練的語(yǔ)言模型。
可選地,所述當(dāng)所述目標(biāo)語(yǔ)句的困惑度大于預(yù)設(shè)困惑度和/或所述目標(biāo)語(yǔ)句的對(duì)數(shù)似然概率小于預(yù)設(shè)對(duì)數(shù)似然概率時(shí),判斷所述目標(biāo)語(yǔ)句為錯(cuò)句之前,還包括:
確定所述預(yù)設(shè)困惑度和/或確定所述預(yù)設(shè)對(duì)數(shù)似然概率;
所述確定所述預(yù)設(shè)困惑度和/或確定所述預(yù)設(shè)對(duì)數(shù)似然概率具體包括:
確定所述預(yù)設(shè)困惑度和/或確定所述預(yù)設(shè)對(duì)數(shù)似然概率,包括:
獲取用于訓(xùn)練所述語(yǔ)言模型的訓(xùn)練樣本,所述訓(xùn)練樣本包括正樣本以及負(fù)樣本;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910343889.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法





