[發明專利]一種自動生成基于地方方言的訊或詢問筆錄的方法在審
| 申請號: | 201810929477.6 | 申請日: | 2018-08-15 |
| 公開(公告)號: | CN109243460A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 徐甲甲;費先江;盛馬寶;廖志明 | 申請(專利權)人: | 浙江訊飛智能科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/22;G10L15/14;G10L15/06;G10L15/08 |
| 代理公司: | 杭州融方專利代理事務所(普通合伙) 33266 | 代理人: | 沈相權 |
| 地址: | 311201 浙江省杭州市蕭山區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地方方言 自動生成 詢問 模型訓練模塊 語音處理模塊 語音識別模塊 辦事效率 | ||
1.一種自動生成基于地方方言的訊或詢問筆錄的方法,其特征在于按以下步驟進行:
(一)、前端語音處理模塊:
針對輸入的語音,首先使用基于能量及模型的VAD技術進行分段,再采用基于模型的聚類技術對原始語音中的人聲、非語音、背景噪音相關現象進行自動判別及歸類,再進一步針對不同說話人進行聚類,針對分割后的語音提取對語音識別有效的、對噪聲魯棒性較好的聲學特征,同時為了消除不同說話人對識別效果的影響,首先會從特征域盡可能去除說話人的信息,主流的特征域處理方式包括VTLN、HLDA、特征域SAT相關技術,通過這些關鍵技術的加入,可以獲得冗余信息更少、說話人信息被去除的聲學特征,為后續的語音識別做好準備;
(二)、后端語音識別模塊:
為了將各語音轉寫關鍵技術點進行更好的整合,并綜合考慮識別效果和識別效率相關因素,在系統中將使用多編解碼框架:首先使用簡單聲學模型和低階語言模型,簡單聲學模型是指模型復雜度較小、未去除說話人信息;低階語言模型是指三階且模型復雜度較小;并結合WFST解碼器進行一遍的快速解碼,并生成對應的詞圖空間,該詞圖空間具有覆蓋性好、結構緊致的特點;
接著,將絕大多數對性能提升的核心技術點放到二遍解碼中,包括特征規整、區分性特征、模型區分性訓練、模型自適應,并在二遍解碼中相應使用更加復雜的聲學模型和超大規模高階語言模型,在詞圖空間中采用重新打分的方式輸出二遍解碼結果;雖然二遍解碼融入了各關鍵技術點,且模型復雜度相對于一編解碼提升很多,但是由于基于該詞圖空間的搜索范圍小了很多,二遍解碼的效率非常高;基于上述多編解碼框架,不僅能將各轉寫技術點的性能提升發揮出來,在效率上還有巨大的優勢;
置信度判決是后端語音識別系統中重要的后處理模塊,針對識別結果中可能出現的錯誤通過詞后驗概率技術給出識別結果對應的可信度得分,對可信度低的識別結果進行智能拒識;
語音識別在解碼過程中會生成詞圖網格來表征可能的句子候選空間;詞圖網格中每條弧表示了詞的聲學和語言模型得分,一般而言每一時刻會有若干候選詞,通過維特比前后向算法計算每個詞的后驗概率;識別最優結果是詞圖候選空間中的一條整體得分最大的路徑,通過構成該句子的每個詞的后驗概率;
由于一遍置信度計算是定義在詞圖上,詞圖對多候選的覆蓋度一般很難控制,存在計算不夠精確的情況;此外每個詞一般包含若干語音幀,時間精度也不夠;在一遍解碼的基礎之上采用Force Alignment的方案得到每個語音幀的時間狀態信息,基于最優路徑狀態聲學后驗概率的幾何平均構建第二個句子置信度;最終置信度是詞圖置信度和最優路徑狀態聲學置信度的平均;此外在解碼過程中,由于每條路徑的狀態置信度可以同步存儲下來,所以兩個置信度得分計算可以在一遍解碼過程中完成從而不會對引擎效率帶來大的影響;
(三)、模型訓練模塊:
①聲學模型訓練:
聲學模型訓練模塊用于識別方言聲學模型資源,主要是指針對音素、音節相關聲學建模單元設計適合的模型分布,并使用相應的語音數據,實際是轉化為上面提及的聲學特征,對這些模型參數進行訓練;聲學模型是語音識別引擎中最重要的模塊之一,其模型準確性直接影響了最終的識別效果;基于長短時記憶(LSTM)的LSTM-HMM混合模型的相關研究成為國際上研究的熱點,其相當于傳統HMM獲得了顯著的性能提升;除了針對傳統HMM模型進行了一系列核心技術的研發,還對最新的研究熱點LSTM-HMM模型進行研發,具體的是基于海量數據的聲學模型區分性訓練;
聲學模型的區分性訓練是提升聲學模型性能的最主要手段;除了采用MPE和BoostedMMI相關訓練準則算法,還在傳統EBW參數更新算法的基礎上提出稱為Constrained LineSearch(CLS)和Trust Region(TR)的兩種模型參數更新算法,使得區分性模型參數更具有理論性和可調配性,有效地提升區分性訓練算法的效果;
接著,在獲得大量訊或詢問場景下海量聲學數據的前提下,研發大數據量下的聲學模型區分性訓練,數據量為2000-5000小時聲學數據:首先,針對競爭空間的生成規模進行仔細的調節,否則容易出現過訓練或欠訓練的現象,只有結合訓練數據量仔細的控制區分性訓練中積累的統計量,才能使得海量數據上的聲學模型區分性訓練相對于最大似然估計的基線系統獲得合理的提升;另外,相對于最大似然基線系統,區分性訓練是非常耗費機器資源的,通過對區分性訓練流程的優化,顯著提升訓練過程的效率,使得海量數據基礎上的區分性訓練真正實用化;
②語言模型訓練:
語言模型模塊用于識別方言語言模型資源,語言模型主要是指針對詞序列之間的組合建立相應的概率體系,以判斷哪些詞序列在識別過程中更容易出現;語言模型對詞序列的預測能力直接影響著識別性能的好壞;采用基于海量文本數據的超大規模高階語言模型,以及RNN語言模型;
基于海量文本數據的超大規模高階語言模型訓練:在傳統任務中,訓練文本一般控制在1G以內,且相應訓練的語言模型規模一般控制在1M n-gram數目以內,此時已經能獲得較飽和的識別性能;然而,在詢問或訊問環境下,語音輸入的內容是完全開放沒有任何限制的,此時如果想針對開放性內容獲得較好的識別效果,一方面必須要擴大訓練語料的獲取范圍和數據量以提高響應模型的覆蓋度,另一方面也要相應增加語言模型的復雜度以用更多的模型參數來對海量數據進行建模;
基于大量的訊或詢問文本訓練了超大規模的語言模型,超大規模是指100M n-gram,同時為了提升語言模型對更長詞序列的覆蓋性,語言模型的階數從傳統的3階提升到5階;然而,如此龐大的語言模型一般無法直接在解碼器中使用,通過開發查分系統,以達到在二遍解碼中用到此超大規模語言模型得分的目的;在已有研究成果表明,在使用了該超大規模語言模型以后,整體識別結果提升了絕對5個點以上,在較生僻詞匯及說法的識別效果有了顯著的改善;
③詞典資源訓練:
詞典資源模塊用于識別方言音字詞典資源,詞典資源模塊包含系統所能處理的單詞的集合,并標明了其發音;通過詞典資源得到聲學模型的建模單元和語言模型建模單元間的映射關系,從而把聲學模型和語言模型連接起來,組成一個搜索的狀態空間用于解碼器進行解碼工作;詞典資源是存放所有單詞的發音的詞典,它的作用是用來連接聲學模型和語言模型的;如,一個句子可以分成若干個單詞相連接,每個單詞通過查詢詞典資源得到該單詞發音的音素序列;相鄰單詞的轉移概率可以通過語言模型獲得,音素的概率模型可以通過聲學模型獲得;從而生成了這句話的一個概率模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江訊飛智能科技有限公司,未經浙江訊飛智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810929477.6/1.html,轉載請聲明來源鉆瓜專利網。





