[發明專利]對文本自動添加標點符號的方法、系統、設備及介質有效
| 申請號: | 202110171377.3 | 申請日: | 2021-02-04 |
| 公開(公告)號: | CN112906348B | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 邱實;楊學銳 | 申請(專利權)人: | 云從科技集團股份有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F16/31;G06F16/33;G06N3/04;G06N3/08;G06F40/295 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 李鐵 |
| 地址: | 511457 廣東省廣州市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 自動 添加 標點符號 方法 系統 設備 介質 | ||
一種對文本自動添加標點符號的方法、系統、設備及介質,通過識別音頻獲取文本;將對應文本轉化為多個索引值序列,并將這多個索引值序列輸入至深度神經網絡模型中,獲取每個索引值序列的概率分布;基于每個索引值序列的概率分布確定該索引值序列中每個字對應的最大概率分布值,作為該字后面要添加的標點符號的索引;通過該索引從預先確定的標點符號索引表中獲取相應的標點符號,并自動添加到文本序列中,完成對文本的標點符號添加;若索引對應的是空白標簽,則跳過當前字,不對當前字添加標點符號。本發明可以實現自動標點符號、跨領域遷移學習和激進程度調整等功能,還可以改變深度神經網絡模型的激進度,滿足不同場景下對準確率和召回率的要求。
技術領域
本發明涉及語音識別技術領域,特別是涉及一種對文本自動添加標點符號的方法、系統設備及介質。
背景技術
語音識別可以將語音轉寫成相應的文本,但由于標點符號本身不具有發音,語音識別的轉寫結果往往是不含有標點符號的文本。通過額外的工具向轉寫結果中添加標點符號,可以增加轉寫結果的可讀性。尤其在長音頻的轉寫場景中,標點符號對于人類理解長文本的內容更為關鍵。通常的自動標點符號工具通過訓練一個深度神經網絡模型來實現。
然而,現有的自動標點符號工具往往存在以下幾點缺陷:
1)獨立的標點符號模型往往不是針對語音識別這一單一場景,因而在口語化文本上的效果欠佳;而專門為語音識別開發的標點符號模型大多與上游的語音識別模型綁定,難以解耦。
2)作為語音識別的下游任務,標點符號模型對于效果與性能都有較高的要求。如果過度追求效果,模型過大,會影響語音識別的整體實時率;一味追求速度的話,模型過小,又難以得到滿意的結果。
3)不同應用場景下,標點符號的添加規則也不相同。許多專業術語,專有名詞等需要結合領域才能區分出來,例如金融場景中各種基金產品的名稱。一個模型難以滿足不同領域的需求。
4)有些標點符號模型選擇了較為激進的算法,添加標點符號少有遺漏,但錯誤較多;另一些模型策略較為保守,出錯較少的同時也遺漏了較多的標點。如何在準確率和召回率之間取舍也成為了標點符號工具需要考慮的一個問題。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種對文本自動添加標點符號的方法、系統、設備及介質,用于解決現有技術中存在的技術問題。
為實現上述目的及其他相關目的,本發明提供一種對文本自動添加標點符號的方法,包括以下步驟:
識別一個或多個音頻,獲取對應的文本;
將所述文本轉化為多個索引值序列,并將多個所述索引值序列輸入至深度神經網絡模型中,獲取每個索引值序列的概率分布;
基于每個索引值序列的概率分布確定每個索引值序列中每個字對應的最大概率分布值,并將每個字對應的最大概率分布值作為該字后面要添加的標點符號的索引;
通過所述索引從預先確定的標點符號索引表中獲取相應的標點符號,并自動添加到所述文本中,完成對所述文本的標點符號添加;若所述索引對應的是空白標簽,則跳過當前字,不對當前字添加標點符號。
可選地,所述深度神經網絡模型的訓練過程包括:
獲取由帶標點符號的文本和具有含義的字詞所組成的訓練數據;
將所述訓練數據輸入至一個或多個深度神經網絡中,使所述帶標點符號的文本和具有含義的字詞利用同一個或多個深度神經網絡的網絡結構進行訓練;
根據所述帶標點符號的文本的標簽和所述具有含義的字詞的標簽計算所述一個或多個神經網絡的交叉熵損失函數,并獲取所述交叉熵損失函數的平均值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云從科技集團股份有限公司,未經云從科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110171377.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種非契約客戶流失預測方法及系統
- 下一篇:一種彈簧鋼防脫碳的加熱爐控制方法





