[發(fā)明專利]將書面文本轉(zhuǎn)換為口語文本的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710987858.5 | 申請日: | 2017-10-21 |
| 公開(公告)號: | CN107844480B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計)人: | 周明;江源;胡國平;胡郁 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/40 | 分類號: | G06F40/40;G06F40/289 |
| 代理公司: | 北京華圣典睿知識產(chǎn)權(quán)代理有限公司 11510 | 代理人: | 陳國偉 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 書面 文本 轉(zhuǎn)換 口語 方法 系統(tǒng) | ||
本發(fā)明公開了一種將書面文本轉(zhuǎn)換為口語文本的方法,所述方法包括:接收待轉(zhuǎn)換的源文本數(shù)據(jù);對所述源文本數(shù)據(jù)進行分詞及向量化處理,得到每句源文本數(shù)據(jù)的詞向量序列;依次將每句源文本數(shù)據(jù)的詞向量序列輸入預先構(gòu)建的文本轉(zhuǎn)換模型,根據(jù)所述文本轉(zhuǎn)換模型的輸出得到所述源文本數(shù)據(jù)對應(yīng)的目標文本數(shù)據(jù);在所述目標文本數(shù)據(jù)中插入副語言信息,得到帶有副語言信息的口語化文本數(shù)據(jù)。利用本發(fā)明,可以使轉(zhuǎn)換后的口語文本更符合口語表達的習慣。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,具體涉及一種將書面文本轉(zhuǎn)換為口語文本的方法及系統(tǒng)。
背景技術(shù)
語言是人們用來進行交際的系統(tǒng),通常有兩種不同的表現(xiàn)形式,即口語和書面語。口語即口頭語言,書面語即用文字書寫的語言,二者有著不同的特點。一般來說,口語比書面語靈活簡短,對語境的依賴性比較強,表達時常伴有副語言現(xiàn)象,如喘息、拖音、停頓等,從而使口語聽起來比書面語親切自然,更容易理解,因此,為了便于人們理解,研究人員提出,可以將書面文本轉(zhuǎn)換成口語化文本。
現(xiàn)有的文本轉(zhuǎn)換方法在將書面語轉(zhuǎn)換為口語時,一般是直接在書面語上加入一些口語中經(jīng)常出現(xiàn)的副語言信息。具體加入時,通過預先設(shè)定的規(guī)則,對書面文本進行文本分析后,確定副語言信息加入的位置,直接將副語言信息添加到相應(yīng)書面語上;如對書面文本“中國社會和經(jīng)濟已發(fā)生翻天覆地的變化”添加停頓后得到轉(zhuǎn)換后的口語化文本“中國社會和經(jīng)濟#已發(fā)生翻天覆地的變化”,其中,“#”為停頓標識符。
現(xiàn)有的文本轉(zhuǎn)換方法直接對書面文本進行分析添加相應(yīng)副語言后得到轉(zhuǎn)換后的口語化文本,轉(zhuǎn)換后的口語化文本只是簡單地在書面文本上添加了口語中常見的副語言信息,轉(zhuǎn)換后的口語化文本并不符合語言的表達習慣,有時在書面文本中出現(xiàn)了口語化的副語言信息反而會讓用戶感覺到生硬、拗口,表達不流暢等感覺,嚴重影響用戶體驗。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種將書面文本轉(zhuǎn)換為口語文本的方法及系統(tǒng),以使轉(zhuǎn)換后的口語文本更符合口語表達的習慣。
為此,本發(fā)明提供如下技術(shù)方案:
一種將書面文本轉(zhuǎn)換為口語文本的方法,所述方法包括:
接收待轉(zhuǎn)換的源文本數(shù)據(jù);
對所述源文本數(shù)據(jù)進行分詞及向量化處理,得到每句源文本數(shù)據(jù)的詞向量序列;
依次將每句源文本數(shù)據(jù)的詞向量序列輸入預先通過收集書面語文本數(shù)據(jù)及與其對應(yīng)的口語化本數(shù)據(jù)構(gòu)建的文本轉(zhuǎn)換模型,根據(jù)所述文本轉(zhuǎn)換模型的輸出得到所述源文本數(shù)據(jù)對應(yīng)的目標文本數(shù)據(jù);所述文本轉(zhuǎn)換模型包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),在訓練過程中利用所述書面語文本數(shù)據(jù)輸入所述編碼網(wǎng)絡(luò)后,所述解碼網(wǎng)絡(luò)輸出的目標文本序列與所述書面語文本數(shù)據(jù)對應(yīng)的口語化文本數(shù)據(jù)之間的差值對模型參數(shù)進行更新;
在所述目標文本數(shù)據(jù)中插入副語言信息,得到帶有副語言信息的口語化文本數(shù)據(jù)。
優(yōu)選地,所述方法還包括:所述文本轉(zhuǎn)換模型的構(gòu)建過程包括:
確定文本轉(zhuǎn)換模型的拓撲結(jié)構(gòu),所述拓撲結(jié)構(gòu)包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),所述編碼網(wǎng)絡(luò)的輸入為詞向量序列、輸出為詞編碼向量;所述解碼網(wǎng)絡(luò)的輸入為所述編碼網(wǎng)絡(luò)輸出的詞編碼向量及當前待轉(zhuǎn)換詞之前的歷史詞向量、輸出為目標文本序列;
收集大量文本數(shù)據(jù),所述文本數(shù)據(jù)包括書面語文本數(shù)據(jù)及與其對應(yīng)的口語化文本數(shù)據(jù);
對所述書面語文本數(shù)據(jù)進行分詞及向量化處理,得到每句書面語文本數(shù)據(jù)的詞向量序列;
根據(jù)所述詞向量序列及對應(yīng)的目標文本數(shù)據(jù)訓練模型參數(shù),在訓練過程中依次將每句源文本數(shù)據(jù)的詞向量序列輸入所述編碼網(wǎng)絡(luò),利用所述解碼網(wǎng)絡(luò)輸出的目標文本序列與所述源文本數(shù)據(jù)對應(yīng)的目標文本數(shù)據(jù)之間的差值對模型參數(shù)進行更新;并在訓練結(jié)束后,得到模型參數(shù)。
優(yōu)選地,所述方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710987858.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





