[發明專利]基于人工智能的語音處理方法及其裝置有效

申請號：	201710855048.4	申請日：	2017-09-20
公開（公告）號：	CN107657947B	公開（公告）日：	2020-11-24
發明（設計）人：	孔德威	申請（專利權）人：	百度在線網絡技術（北京）有限公司
主分類號：	G10L15/04	分類號：	G10L15/04;G10L15/05;G10L15/06;G10L15/14
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于人工智能語音處理方法及其裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出一種基于人工智能的語音處理方法及其裝置，其中，方法包括：采集語音進行切分，形成多個語音片段，識別每個語音片段，獲取語音片段的識別文本片段，按照識別文本片段的順序，從當前識別文本片段對應的原始文本中，確定當前識別文本片段的原始文本片段，對原始文本片段以及原始文本片段對應的語音片段進行拼接，得到句子文本和句子文本對應的句子語音，生成句子文本的拼音，并根據拼音形成音子序列，將音子序列與句子語音進行對齊，獲取音子邊界，利用句子文本、句子語音、拼音以及音子邊界，形成用于對語音合成模型進行訓練的目標數據。由此，實現自動對語音進行切分以及標注，形成準確率較高的用于對語音合成模型進行訓練的標注數據。

技術領域

本發明涉及人工智能領域，尤其涉及一種基于人工智能的語音處理方法及其裝置。

背景技術

人工智能(Artificial Intelligence)，英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支，它企圖了解智能的實質，并生產出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。

目前在語音合成領域，大多采用人工方式進行語音切分，然后基于人工識別出每個語音片段對應的原始文本，然后標注拼音等最后形成用于對語音合成模型進行訓練的標注數據，但是人工標注方式，在語音量較大的情況下，往往會出現標注數據生成效率低，切分或者識別過程中容易出現錯誤的問題，而且存在人工成本較高的問題。

發明內容

本發明旨在至少在一定程度上解決相關技術中的技術問題之一。

為此，本發明的第一個目的在于提出一種基于人工智能的語音處理方法，以實現自動對語音進行切分以及標注，形成準確率較高的用于對語音合成模型進行訓練的標注數據，用于解決現有人工標注方式標注數據生成的效率低，切分或者識別過程中容易出現錯誤，而且人工成本較高的問題。

本發明的第二個目的在于提出一種基于人工智能的語音處理裝置。

本發明的第三個目的在于提出另一種計算機設備。

本發明的第四個目的在于提出一種計算機程序產品。

本發明的第五個目的在于提出一種非臨時性計算機可讀存儲介質。

為達上述目的，本發明第一方面實施例提出了一種基于人工智能的語音處理方法，包括：

采集語音進行切分，形成多個語音片段，識別每個語音片段，獲取所述語音片段的識別文本片段；

按照識別文本片段的順序，從與當前識別文本片段對應的原始文本中，確定當前識別文本片段的原始文本片段；

對原始文本片段以及原始文本片段對應的語音片段進行拼接，得到句子文本和所述句子文本對應的句子語音；