[發明專利]錯句檢測方法、裝置及計算機可讀存儲介質有效
| 申請號: | 201910343889.6 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110211571B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 張勇;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L25/51;G10L15/26 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢測 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種錯句檢測方法,其特征在于,所述方法包括:
獲取通過自動語音識別技術得到的目標語句;
獲取所述目標語句包含的第i段文字,判斷預設詞典中是否存在與所述第i段文字相匹配的詞語,其中,i的初始值為1,i為正整數;
若所述預設詞典中不存在與所述第i段文字相匹配的詞語,調整所述第i段文字的字數,判斷所述預設詞典中是否存在與所述第i段文字相匹配的詞語;
若所述預設詞典中存在與所述第i段文字相匹配的詞語,確定所述第i段文字為所述目標語句的第i個詞語,令i=i+1,獲取所述目標語句包含的第i段文字,判斷預設詞典中是否存在與所述第i段文字相匹配的詞語;
當i個詞語的總字數與所述目標語句的總字數相同時,確定所述目標語句由所述i個詞語組成;
將所述i個詞語依據在所述目標語句中的順序依次輸入至預先訓練的語言模型,通過所述語言模型計算所述目標語句的困惑度和/或對數似然概率;
當所述目標語句的困惑度大于預設困惑度和/或所述目標語句的對數似然概率小于預設對數似然概率時,判斷所述目標語句為錯句。
2.如權利要求1所述的錯句檢測方法,其特征在于,所述將所述i個詞語依據在所述目標語句中的順序依次輸入至預先訓練的語言模型包括:
判斷所述i個詞語中是否存在預設關鍵詞;
若所述i個詞語中存在預設關鍵詞,將所述i個詞語中所述預設關鍵詞以外的詞語依據在所述目標語句中的順序依次輸入至預先訓練的語言模型。
3.如權利要求1或2所述的錯句檢測方法,其特征在于,所述當所述目標語句的困惑度大于預設困惑度和/或所述目標語句的對數似然概率小于預設對數似然概率時,判斷所述目標語句為錯句之前,還包括:
確定所述預設困惑度和/或確定所述預設對數似然概率;
所述確定所述預設困惑度和/或確定所述預設對數似然概率具體包括:
獲取用于訓練所述語言模型的訓練樣本,所述訓練樣本包括正樣本以及負樣本;
獲取所述正樣本的困惑度以及所述正樣本的對數似然概率;以及
獲取所述負樣本的困惑度以及所述負樣本的對數似然概率;
根據所述正樣本的困惑度以及所述負樣本的困惑度獲取困惑度直方圖,通過所述困惑度直方圖獲取所述預設困惑度;以及
根據所述正樣本的對數似然概率以及所述負樣本的對數似然概率獲取對數似然概率直方圖,通過所述對數似然概率直方圖獲取所述預設對數似然概率。
4.如權利要求2所述的錯句檢測方法,其特征在于,所述語言模型為深度學習語言模型或基于統計的語言模型。
5.如權利要求1或2所述的錯句檢測方法,其特征在于,所述方法還包括:
若所述目標語句為錯句,發送錯句提醒消息。
6.一種錯句檢測裝置,其特征在于,所述裝置包括存儲器和處理器,所述存儲器上存儲有可在所述處理器上運行的錯句檢測程序,所述錯句檢測程序被所述處理器執行時實現如下步驟:
獲取通過自動語音識別技術得到的目標語句;
獲取所述目標語句包含的第i段文字,判斷預設詞典中是否存在與所述第i段文字相匹配的詞語,其中,i的初始值為1,i為正整數;
若所述預設詞典中不存在與所述第i段文字相匹配的詞語,調整所述第i段文字的字數,判斷所述預設詞典中是否存在與所述第i段文字相匹配的詞語;
若所述預設詞典中存在與所述第i段文字相匹配的詞語,確定所述第i段文字為所述目標語句的第i個詞語,令i=i+1,獲取所述目標語句包含的第i段文字,判斷預設詞典中是否存在與所述第i段文字相匹配的詞語;
當i個詞語的總字數與所述目標語句的總字數相同時,確定所述目標語句由所述i個詞語組成;
將所述i個詞語依據在所述目標語句中的順序依次輸入至預先訓練的語言模型,通過所述語言模型計算所述目標語句的困惑度和/或對數似然概率;
當所述目標語句的困惑度大于預設困惑度和/或所述目標語句的對數似然概率小于預設對數似然概率時,判斷所述目標語句為錯句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910343889.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:同聲傳譯處理方法、裝置及設備
- 下一篇:基于強化學習的對話控制方法及裝置





