[發明專利]一種基于手持智能終端的場景化朗讀音頻制作方法及系統在審
| 申請號: | 201711414780.4 | 申請日: | 2017-12-21 |
| 公開(公告)號: | CN108536655A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 孫仉茂;紀德財 | 申請(專利權)人: | 廣州市訊飛樽鴻信息技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/30;G06K9/20;G10L13/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510665 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能終端 場景化 音頻制作 朗讀 文字內容 語音合成 背景音 獲取信息 手動設置 新聞播報 信息內容 音頻朗讀 音頻文件 用戶體驗 展示內容 知識傳播 轉換效率 自動選擇 音庫 音色 應用 采集 保存 融合 校園 節目 故事 軍事 | ||
本發明提供一種基于手持智能終端的場景化朗讀音頻制作方法及系統。通過OCR識別、語音合成等新技術的應用,提出了基于手持智能終端的場景化朗讀音頻制作解決方案,提高信息內容的轉換效率,降低信息與知識傳播的成本,減少人們對獲取信息與知識的代價,提升人們的用戶體驗。通過對OCR識別、語音合成等新技術的應用,對手持智能終端的展示內容進行采集并形成文字內容,通過對文字內容進行場景化識別,自動選擇或手動設置背景音(如新聞播報的嚴謹、軍事節目的激昂、故事文摘的輕快、校園的歡快等),設置音頻朗讀速度,利用播音員音庫的聲音音色與背景音交叉融合生成音頻文件,并提供給使用者進行保存與分享。
技術領域
本發明涉及文字自動播報技術領域,更具體地,涉及一種基于手持智能終端的場景化朗讀音頻制作方法及系統。
背景技術
以智能手機為代表的智能終端逐漸改變了人類的生活,現代人每天有海量的信息與知識均需要花費時間與精力去手動獲取,雙眼雙手被占用加重現代人的負擔,人們無法在走動或做其他事情的時候實時觀看;互聯網行業的自媒體人發布的優質文稿,在形成音頻的過程中,找專業配音員的錄制成本高,或使用常規的語音合成軟件后的聲音又過于機械化與乏味,降低聽眾的收聽意愿。
發明內容
本發明旨在至少在一定程度上解決上述技術問題。
本發明的首要目的是提供一種基于手持智能終端的場景化朗讀音頻制作方法,通過對OCR識別、語音合成等新技術的應用,對手持智能終端的展示內容進行采集并形成文字內容,通過對文字內容進行場景化識別,并且生成與使用場景相匹配的音頻文件。
本發明的進一步目的是提供一種基于手持智能終端的場景化朗讀音頻制作系統。
為解決上述技術問題,本發明的技術方案如下:
一種基于手持智能終端的場景化朗讀音頻制作方法,包括以下步驟:
S1:使用手持智能終端獲取信息內容,并轉化為文字格式;
S2:對文字內容進行格式化處理,包括自動分段、刪除無效字符,最終獲得有效的純文本格式的內容;
S3:對文字內容的關鍵字進行自動識別,智能地預判該內容的使用場景;
S4:根據預判的使用場景選擇播音員音庫、背景音、語速和語調;
S5:生成場景化音頻文件:根據所選擇的播音員音庫、語速和語調,通過語音合成技術將文字內容轉化為音頻,并加入背景音,生成MP3、AMR、WAV、WMA等文件格式的音頻文件;
S6:將生成的音頻文件提供給用戶保存與分享。
優選地,所述手持智能終端為智能手機、iPad、平板電腦、PC電腦或智能手表。
優選地,步驟S1中,獲取信息內容的途徑包括以下四種方式:
通過文檔文件導入,支持但不限于TXT、WORD、PPT、PDF等文件;
通過輸入網頁URL鏈接,自動識別與抓取文字內容;
通過手持智能終端在海報、雜志、報紙、電腦、平板等媒介上展示的文字、圖片、視頻等內容進行拍照,通過OCR技術獲取文字內容;
通過編輯框錄入內容,支持手動編輯文字,或復制文字后粘貼在編輯框中。
優選地,步驟S3中,所述使用場景包括但不限于新聞播報、軍武介紹、故事文摘、校園廣播等。
優選地,步驟S4具體包括:
S4.1:選擇播音員音庫:根據預判的使用場景自動選擇或手動選擇音庫音色,如男聲的低沉、女聲的柔和細膩、明星的幽默等;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市訊飛樽鴻信息技術有限公司,未經廣州市訊飛樽鴻信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711414780.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:識別文本展示方法及裝置
- 下一篇:基于WFST的文本正則化方法及系統





