[發明專利]一種語料收集方法、裝置及系統有效
| 申請號: | 201910110199.6 | 申請日: | 2019-02-11 |
| 公開(公告)號: | CN109801628B | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 聶穎;王竹欣;鄭權 | 申請(專利權)人: | 龍馬智芯(珠海橫琴)科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/00;G10L15/26;H04L29/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 519031 廣東省珠海市橫琴新區環島*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語料 收集 方法 裝置 系統 | ||
本發明提供了一種語料收集方法、裝置及系統。通過三級遞進式比較判斷,即首先比較初始語料轉換后的文字和標準語料文本的長度是否一致,進而識別出無效語料;當長度一致時,進一步比較初始語料轉換后的文字和標準語料文本的文字是否相同,進而識別出有效語料;當存在不相同的文字時,進一步比較初始語料轉換后的文字和標準語料文本的拼音并根據初始語料轉換后的文字的拼音相對于標準語料文本的拼音的編輯距離計算出初始語料的誤差率,通過初始語料的誤差率與閾值的大小關系,進而識別出有效語料和無效語料;解決了現有技術中收集語料的準確率和收集成本無法兼顧的問題,降低了語料收集的成本,同時提高了所收集語料的準確率。
技術領域
本發明涉及信息處理技術領域,具體而言,涉及一種語料收集方法、裝置及系統。
背景技術
隨著語音交互技術愈發的成熟,語料作為語音交互的能源,語料的收集變得極其的重要。
現有的語料收集方案基于兩種形式,一種是在錄音棚中由專業訓練過的錄音人員利用錄音設備(麥克風、電腦等)錄音,對于錄制好的語音,再由專門的數據標注人員對數據進行整理,其中包括對錄制好的語音的準確性進行判斷(一般都是通過抽取樣本去聽)、對音頻進行分割、然后對分割后的音頻進行歸類,從而完成語音語料的采集;另一種是通過互聯網小程序對任何水平的錄音人員的語音進行收集。第一種形式收集的語料準確率高,但是耗時耗力,且收集的語料具有局限性,即錄音人員的豐富性不足;第二種形式收集的語料有足夠的豐富性,但準確率不足。
專利號CN103198828A公開了一種語音語料庫的構建系統和方法,其語料的來源為用戶通過語音錄入客戶端錄入,將語音與其對應的話術(按照話術錄制的語音)上傳至服務器,通過語音識別對錄制的語音進行識別,若正確則標注正確,否則標注錯誤。該方法完全依賴于語音識別的準確率,但現實生活中一個讀音可能會對應不同的字,所以基于此收集的語料準確率較低,并且在線調聽并標注仍然進一步增加了工作量和收集成本,并沒有解決現有技術中存在的收集語料的準確率和收集成本無法兼顧的問題。
發明內容
為了解決現有技術中存在的收集語料的準確率和收集成本無法兼顧的問題,本發明提供了一種語料收集方法、裝置及系統,通過三級遞進式比較判斷,即首先比較初始語料轉換后的文字和標準語料文本的長度是否一致,進而識別出無效語料;當長度一致時,進一步比較初始語料轉換后的文字和標準語料文本的文字是否相同,進而識別出有效語料;當存在不相同的文字時,進一步比較初始語料轉換后的文字和標準語料文本的拼音并根據初始語料轉換后的文字的拼音相對于標準語料文本的拼音的編輯距離計算出初始語料的誤差率,通過初始語料的誤差率與閾值的大小關系,進而識別出有效語料和無效語料;降低了語料搜集的成本,同時提高了收集語料的準確率。
在第一方面,本發明提供了一種語料收集方法,包括:
在服務器中預置標準語料文本;
聲音采集裝置檢測任務啟動指令,當檢測到任務啟動指令后開始采集基于所述標準語料文本錄入的語音作為初始語料;
利用語音識別技術把所述初始語料轉換為初始文字,比較所述初始文字與所述標準語料文本的長度,當所述初始文字與所述標準語料文本的長度不一致時,則判斷所述初始語料為無效語料,把所述初始語料存儲至服務器中的無效語料庫;當所述初始文字與所述標準語料文本的長度一致時,則進一步進行以下步驟,
逐字比較所述初始文字與所述標準語料文本,當所述初始文字與所述標準語料文本的文字全部相同時,則判斷所述初始語料為有效語料,把所述初始語料存儲至服務器中的有效語料庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于龍馬智芯(珠海橫琴)科技有限公司,未經龍馬智芯(珠海橫琴)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910110199.6/2.html,轉載請聲明來源鉆瓜專利網。





