[發明專利]語音輸出方法、終端及計算機可讀存儲介質在審
| 申請號: | 201811632187.1 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109686359A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 李春寶 | 申請(專利權)人: | 努比亞技術有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033;G10L13/08;G10L13/10 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518057 廣東省深圳市南山區高新區北環大道9018*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 朗讀 觸控操作 控件 偵測 計算機可讀存儲介質 語音朗讀 語音輸出 語音 文本 終端 語音合成模型 個性化需求 用戶調節 用戶體驗 輸出 合成 指令 | ||
本發明公開了一種語音輸出方法,該方法包括:在接收到啟動朗讀功能的指令時,獲取待朗讀文本,并通過訓練好的語音合成模型合成所述待朗讀文本對應的語音;輸出所述語音,以及,顯示朗讀速度控件;偵測作用于所述朗讀速度控件的觸控操作;在偵測到作用于所述朗讀速度控件的觸控操作時,根據偵測到的觸控操作調整所述語音的輸出速度。本發明還公開了一種終端及計算機可讀存儲介質。本發明能夠增強語音朗讀的自然感,且能夠滿足用戶調節語音朗讀速度的個性化需求,從而提升了用戶體驗。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種語音輸出方法、終端及計算機可讀存儲介質。
背景技術
隨著移動互聯網的發展,對語音技術的利用越來越多,語音朗讀也越來越普及。比如等車、坐車、環境光線昏暗的場景下,進行視覺閱讀不是很方便,而語音朗讀使得用戶可以隨心所欲地聽書籍、新聞、查閱的資料等。然而,現在的語音朗讀一般是調用語音模塊按照默認的語速進行逐字輸出,這種輸出結果用戶聽起來較為機械和單調,用戶體驗不佳。
上述內容僅用于輔助理解本發明的技術方案,并不代表承認上述內容是現有技術。
發明內容
本發明的主要目的在于提供一種語音輸出方法、終端及計算機可讀存儲介質,旨在解決現有的語音朗讀較為機械和單調,用戶體驗不佳的技術問題。
為實現上述目的,本發明提供一種語音輸出方法,所述語音輸出方法包括以下步驟:
在接收到啟動朗讀功能的指令時,獲取待朗讀文本,并通過訓練好的語音合成模型合成所述待朗讀文本對應的語音;
輸出所述語音,以及,顯示朗讀速度控件;
偵測作用于所述朗讀速度控件的觸控操作;
在偵測到作用于所述朗讀速度控件的觸控操作時,根據偵測到的觸控操作調整所述語音的輸出速度。
可選地,所述訓練好的語音合成模型包括訓練好的韻律分析模型和訓練好的聲學模型,
所述通過訓練好的語音合成模型合成所述待朗讀文本對應的語音的步驟包括:
通過訓練好的韻律分析模型,提取所述待朗讀文本對應的文本特征向量;
將所述文本特征向量輸入至訓練好的聲學模型中,得到訓練好的聲學模型輸出的聲學特征向量;
根據所述聲學特征向量,合成所述待朗讀文本對應的語音。
可選地,所述通過訓練好的韻律分析模型,提取所述待朗讀文本對應的文本特征向量的步驟包括:
將所述待朗讀文本輸入至訓練好的韻律分析模型中,進行分詞處理和標注處理,得到分詞結果和標注結果;
根據所述分詞結果和標注結果提取所述待朗讀文本對應的文本特征向量。
可選地,所述根據所述聲學特征向量,合成所述待朗讀文本對應的語音的步驟包括:
對所述聲學特征向量進行反變換處理,得到所述聲學特征向量對應的聲音波形;
依次拼接所述聲學特征向量對應的聲音波形,合成所述待朗讀文本對應的語音。
可選地,所述根據所述聲學特征向量,合成所述待朗讀文本對應的語音的步驟,還包括:
根據所述聲學特征向量,從預存真人語音片段庫中,匹配所述聲學特征向量對應的目標語音片段;
依次拼接匹配到的目標語音片段,合成所述待朗讀文本對應的語音。
可選地,所述根據偵測到的觸控操作調整所述語音的輸出速度的步驟包括:
確定偵測到的觸控操作對應的變速倍率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于努比亞技術有限公司,未經努比亞技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811632187.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高保真的智能客服語音合成方法
- 下一篇:一種語音訂餐機器人





