[發明專利]基于人工智能的語音處理方法及其裝置有效
| 申請號: | 201710855048.4 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107657947B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 孔德威 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/05;G10L15/06;G10L15/14 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 語音 處理 方法 及其 裝置 | ||
本發明提出一種基于人工智能的語音處理方法及其裝置,其中,方法包括:采集語音進行切分,形成多個語音片段,識別每個語音片段,獲取語音片段的識別文本片段,按照識別文本片段的順序,從當前識別文本片段對應的原始文本中,確定當前識別文本片段的原始文本片段,對原始文本片段以及原始文本片段對應的語音片段進行拼接,得到句子文本和句子文本對應的句子語音,生成句子文本的拼音,并根據拼音形成音子序列,將音子序列與句子語音進行對齊,獲取音子邊界,利用句子文本、句子語音、拼音以及音子邊界,形成用于對語音合成模型進行訓練的目標數據。由此,實現自動對語音進行切分以及標注,形成準確率較高的用于對語音合成模型進行訓練的標注數據。
技術領域
本發明涉及人工智能領域,尤其涉及一種基于人工智能的語音處理方法及其裝置。
背景技術
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。
目前在語音合成領域,大多采用人工方式進行語音切分,然后基于人工識別出每個語音片段對應的原始文本,然后標注拼音等最后形成用于對語音合成模型進行訓練的標注數據,但是人工標注方式,在語音量較大的情況下,往往會出現標注數據生成效率低,切分或者識別過程中容易出現錯誤的問題,而且存在人工成本較高的問題。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的第一個目的在于提出一種基于人工智能的語音處理方法,以實現自動對語音進行切分以及標注,形成準確率較高的用于對語音合成模型進行訓練的標注數據,用于解決現有人工標注方式標注數據生成的效率低,切分或者識別過程中容易出現錯誤,而且人工成本較高的問題。
本發明的第二個目的在于提出一種基于人工智能的語音處理裝置。
本發明的第三個目的在于提出另一種計算機設備。
本發明的第四個目的在于提出一種計算機程序產品。
本發明的第五個目的在于提出一種非臨時性計算機可讀存儲介質。
為達上述目的,本發明第一方面實施例提出了一種基于人工智能的語音處理方法,包括:
采集語音進行切分,形成多個語音片段,識別每個語音片段,獲取所述語音片段的識別文本片段;
按照識別文本片段的順序,從與當前識別文本片段對應的原始文本中,確定當前識別文本片段的原始文本片段;
對原始文本片段以及原始文本片段對應的語音片段進行拼接,得到句子文本和所述句子文本對應的句子語音;
生成所述句子文本的拼音,并根據所述拼音形成音子序列,將所述音子序列與所述句子語音進行對齊,獲取音子邊界;
利用所述句子文本、所述句子語音、所述拼音以及所述音子邊界,形成用于對語音合成模型進行訓練的目標數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710855048.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:制備成型聲學結構的方法
- 下一篇:嵌入式音頻終端及其語音交互方法





