[發明專利]一種輸入語句的糾錯方法及裝置有效
| 申請號: | 201611233791.8 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN107122346B | 公開(公告)日: | 2018-02-27 |
| 發明(設計)人: | 王健宗;袁威強;韓茂琨;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 深圳中一專利商標事務所44237 | 代理人: | 陽開亮 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輸入 語句 糾錯 方法 裝置 | ||
技術領域
本發明屬于信息處理領域,尤其涉及一種輸入語句的糾錯方法及裝置。
背景技術
輸入法是指為將各種符號輸入計算機或其他智能終端而使用的編碼方法。依照輸入設備的不同,輸入法可分為鍵盤輸入法、語音輸入法以及手寫輸入法。由于鍵盤輸入法的技術實現難度低且輸入的文字準確率高,因此,相比于其他兩種輸入法來說,使用群體的范圍更廣。
目前,漢語拼音輸入法已經成為用戶最常使用的鍵盤輸入法之一。但是,用戶在使用拼音輸入法的過程中,由于輸入了錯誤的拼音字母或者選擇了錯誤的候選詞語,導致了最終輸入的結果并非為用戶實際所需的漢字。在機器智能問答領域中,由于用戶輸入的問題語句都比較短,因此,若此時輸入的語句中包含有錯誤的字詞,則會導致智能問答系統無法正確理解用戶實際的問題,從而給出了錯誤的問題答案,降低了自動問答的成功率,嚴重制約了智能問答系統的發展。
發明內容
本發明實施例提供一種輸入語句的糾錯方法及裝置,旨在解決目前當用戶在智能問答系統中輸入了錯誤的語句時,自動問答成功率低的問題。
本發明實施例是這樣實現的,一種輸入語句的糾錯方法,包括:
基于訓練語料構建并訓練語言模型;
獲取所述語言模型的判錯閾值,所述判錯閾值表示輸入語句為錯誤語句的臨界概率值;
將待識別語句輸入所述語言模型,以計算出所述待識別語句的正確概率;
當所述待識別語句的正確概率低于所述判錯閾值時,判定所述待識別語句為錯誤語句并對所述待識別語句執行糾錯處理。
本發明實施例的另一目的在于提供一種輸入語句的糾錯裝置,包括:
構建單元,用于基于訓練語料構建并訓練語言模型;
獲取單元,用于獲取所述語言模型的判錯閾值,所述判錯閾值表示輸入語句為錯誤語句的臨界概率值;
計算單元,用于將待識別語句輸入所述語言模型,以計算出所述待識別語句的正確概率;
糾錯單元,用于當所述待識別語句的正確概率低于所述判錯閾值時,判定所述待識別語句為錯誤語句并對所述待識別語句執行糾錯處理。
本發明實施例中,根據語言模型輸出待識別語句的正確概率,以判斷用戶輸入的語句是否存在錯誤,實現了對語句正確性的自動檢測,通過對判斷為錯誤語句的待識別語句進行糾錯處理,保證了用戶在智能問答系統中即使輸入了錯誤的字詞,也能將包含該錯誤字詞的語句自動調整為符合用戶實際意愿的語句,從而使智能問答系統能夠準確理解用戶的問題,提高自動問答的成功率,由此進一步促進了智能問答技術的發展。
附圖說明
圖1是本發明實施例提供的輸入語句的糾錯方法的實現流程圖;
圖2是本發明實施例提供的輸入語句的糾錯方法S11的具體實現流程圖;
圖3是本發明實施例提供的輸入語句的糾錯方法S12的具體實現流程圖;
圖4是本發明實施例提供的輸入語句的糾錯方法S14的具體實現流程圖;
圖5是本發明實施例提供的輸入語句的糾錯方法S401的具體實現流程圖;
圖6是本發明實施例提供的輸入語句的糾錯裝置的結構框圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
本發明實施例中,根據語言模型輸出待識別語句的正確概率,以判斷用戶輸入的語句是否存在錯誤,實現了對語句正確性的自動檢測,通過對判斷為錯誤語句的待識別語句進行糾錯處理,保證了用戶在智能問答系統中即使輸入了錯誤的字詞,也能將包含該錯誤字詞的語句自動調整為符合用戶實際意愿的語句,從而使智能問答系統能夠準確理解用戶的問題,提高自動問答的成功率,由此進一步促進了智能問答技術的發展。
圖1示出了本發明實施例提供的輸入語句的糾錯方法的實現流程,詳述如下:
在S11中,基于訓練語料構建并訓練語言模型。
在本實施例中,訓練語料是在實際使用中真實出現過的語言材料,按照語料采集單位的不同,訓練語料可以分為語篇、語句、短語等三大類。將訓練語料作為基礎信息來進行分析及處理,根據語料所表達的客觀事實,可對訓練語料進行語言抽象數學建模,從而得到最終的語言模型。
特別地,本實施例中的訓練語料為智能問答領域及其相關領域內的規范文本數據以及真實的用戶問題記錄文本,根據真實記錄文本與規范文本之間的特征差異,能夠訓練出對所有訓練語料擬合程度較高的語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611233791.8/2.html,轉載請聲明來源鉆瓜專利網。





