[發明專利]語音文本糾錯方法有效
| 申請號: | 202010935869.0 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN111985234B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 韓軼西;劉楚雄;唐軍 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/232 |
| 代理公司: | 四川省成都市天策商標專利事務所(有限合伙) 51213 | 代理人: | 張秀敏 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 文本 糾錯 方法 | ||
本發明公開了一種語音文本糾錯方法,包括詞語的穩定度集合A,將現有文本語料全拆分為雙字形式,并記錄下每個字與后方各個字搭配的概率,得到unigram集合;對傳入的文本利用unigram集合進行計算,得到需要被糾錯的文本B并進行分詞,對分詞結果利用穩定度集合A來進行衡量是否穩定,對于不穩定的結果獲取其拼音文本,獲得其文字,得到文字混淆集C,替換文本B的原相應位置,使之構成數個序列,得到待解碼序列D,計算其隱馬爾科夫概率值,取最大概率所對應的文字序列組合為句子即是最終的糾錯結果。本發明提升了語音控制和搜索的準確度。
技術領域
本發明涉及自然語言處理技術領域,特別是一種語音文本糾錯方法。
背景技術
在視頻領域上,隨人工智能技術的發展,利用語音進行控制和搜索被普遍的應用于視頻設備領域,包括但不限于電視、移動設備、可穿戴設備等,但由于認知、記憶、口音、口誤和語音識別設備的差異,用戶所輸入的語音文本既有同音錯誤、少字錯誤,又有順序錯誤和語法錯誤,從而對視頻設備的識別和搜索造成了較大影響;同時現有的文本糾錯方法常常堆之以模型,造成了較大的時間花銷,影響用戶體驗。為解決提高語音文本的正確率而時間上又不能造成過多的花銷的問題,對語音識別后轉譯的文本進行高效率的糾錯成為了提高語音識別效率的有效方法。
發明內容
為解決現有技術中存在的問題,本發明的目的是提供一種語音文本糾錯方法,提升了語音控制和搜索的準確度。
為實現上述目的,本發明采用的技術方案是:一種語音文本糾錯方法,包括以下步驟:
S1、對過往的語音識別結果和正確結果進行對比,并計算錯誤識別結果與正確識別結果的頻次,得到詞語的穩定度集合A;
S2、將現有文本語料全拆分為雙字形式,并記錄下每個字與后方各個字搭配的概率,得到unigram集合;
S3、對傳入的文本利用步驟S2得到的unigram集合進行計算,對于在平滑的unigram計算數值曲線上產生斷層的,或從未在步驟S2的語料中出現過的字詞組合,認定為是需要被糾錯的文本B;
S4、對文本B進行分詞,并對分詞結果利用步驟S1得到的穩定度集合A來進行衡量是否穩定,對于穩定的結果不做糾錯處理,對于不穩定的結果則進入到下一步;
S5、對步驟S4不穩定的結果,獲取其拼音文本,并利用語言學知識得到其易錯的結果,獲得混淆集合,對混淆集合得到的拼音,利用拼音-文字字典,獲得其文字,得到文字混淆集C;
S6、使用與步驟S2相同的文本語料,對語料計算每個拼音下的字的概率,作為發射矩陣R,計算每個字作為開頭的概率,作為初始矩陣S,計算每個字后接單一文字或多文字的概率,作為轉移矩陣Q;
S7、對步驟S5得到的文字混淆集C,替換文本B的原相應位置,使之構成數個序列,得到待解碼序列D;
S8、對步驟S7得到的待解碼序列D,計算其隱馬爾科夫概率值,取最大概率所對應的文字序列組合為句子即是最終的糾錯結果。
作為一種優選的實施方式,所述步驟S8中,計算待解碼序列D的隱馬爾科夫概率值具體包括以下步驟:
a、對于文本的第一個字從初始矩陣S中獲取其初始概率;
b、對于其他位置的字W,獲取字W前所有字序列概率的最大值P(max前綴),由發射矩陣R獲取字W在字W對應拼音下的發射概率R(W),由轉移矩陣Q獲取字W作為前一文字組合情況下的下一文字出現的概率Q(W),依據公式P(max前綴)*R(W)*Q(W)得到當前文字到下一文字的概率,最終得到數個文字序列及其對應概率。
作為另一種優選的實施方式,采用分詞工具jieba對文本B進行分詞。
本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010935869.0/2.html,轉載請聲明來源鉆瓜專利網。





