[發明專利]數據處理方法、裝置、電子設備及計算機存儲介質在審
| 申請號: | 202110390911.X | 申請日: | 2021-04-12 |
| 公開(公告)號: | CN113095062A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 陳謙 | 申請(專利權)人: | 阿里巴巴新加坡控股有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F16/35;G06F40/30;G06F40/126;G10L15/26 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰;趙海嬌 |
| 地址: | 新加坡珊頓道*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 電子設備 計算機 存儲 介質 | ||
本發明實施例提供了一種數據處理方法、裝置、電子設備及計算機存儲介質。該數據處理方法包括:獲取未攜帶標點符號的待處理文本;從待處理文本中提取出上下文信息;將所述上下文信息分別輸入到點號預測模型和至少一個標號預測模型,并獲得所述點號預測模型輸出的點號標簽序列和所述至少一個標號預測模型輸出的標號標簽序列;根據所述待處理文本、所述點號標簽序列和至少一個所述標號標簽序列,生成包含標點符號的文本。該數據處理方法效率更高。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種數據處理方法、裝置、電子設備及計算機存儲介質。
背景技術
現有的自動語音識別系統(ASR)用于將語音識別成文本,以供用戶在不方便聽語音數據時快速獲取語音數據中的內容。例如,在即時通信應用中,用戶A向用戶B發送語音數據,用戶B在不方便播放語音時可以將語音數據轉換為文本查看?,F有的語音識別系統輸出的文本不包含標點符號,這使得閱讀體驗和語義表達不佳。
發明內容
有鑒于此,本發明實施例提供一種數據處理方案,以至少部分解決上述問題。
根據本發明實施例的第一方面,提供了一種數據處理方法,包括:獲取未攜帶標點符號的待處理文本;從待處理文本中提取出上下文信息;將所述上下文信息分別輸入到點號預測模型和至少一個標號預測模型,并獲得所述點號預測模型輸出的點號標簽序列和所述至少一個標號預測模型輸出的標號標簽序列;根據所述待處理文本、所述點號標簽序列和至少一個所述標號標簽序列,生成包含標點符號的文本。
根據本發明實施例的第二方面,提供了一種數據處理方法,包括:獲取語音數據對應的未攜帶標點符號的待處理文本;分別使用點號預測模型和至少一個標號預測模型對所述待處理文本進行處理,以獲得預測文本,所述預測文本中包含待處理文本、以及所述待處理文本對應的標號和/或點號;根據對所述預測文本中的標號和/或點號的修正操作,確定修正的文本;使用所述修正的文本對所述至少一個標號預測模型和/或點號預測模型進行調整操作。
根據本發明實施例的第三方面,提供了一種數據處理裝置,包括:第一獲取模塊,用于獲取未攜帶標點符號的待處理文本;提取模塊,用于從待處理文本中提取出上下文信息;第一預測模塊,用于將所述上下文信息分別輸入到點號預測模型和至少一個標號預測模型,并獲得所述點號預測模型輸出的點號標簽序列和所述至少一個標號預測模型輸出的標號標簽序列;生成模塊,用于根據所述待處理文本、所述點號標簽序列和至少一個所述標號標簽序列,生成包含標點符號的文本。
根據本發明實施例的第四方面,提供了一種數據處理裝置,包括:第二獲取模塊,用于獲取語音數據對應的未攜帶標點符號的待處理文本;第二預測模塊,用于分別使用點號預測模型和至少一個標號預測模型對所述待處理文本進行處理,以獲得預測文本,所述預測文本中包含待處理文本、以及所述待處理文本對應的標號和/或點號;修正模塊,用于根據對所述預測文本中的標號和/或點號的修正操作,確定修正的文本;調整模塊,用于使用所述修正的文本對所述至少一個標號預測模型和/或點號預測模型進行調整操作。
根據本發明實施例的第五方面,提供了一種電子設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行如第一方面或第二方面所述的數據處理方法對應的操作。
根據本發明實施例的第六方面,提供了一種計算機存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面或第二方面所述的數據處理方法。
根據本發明實施例提供的數據處理方案,從待處理文本中獲得用于表征語義的上下文信息,并根據上下文信息分別使用點號預測模型和標號預測模型進行點號預測和標號預測。基于預測出的點號標簽序列和標號標簽序列,將相應的點號和標號補充到待處理文本中,形成包含標點符號的文本,以此提升了文本的可讀性和語義準確性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴新加坡控股有限公司,未經阿里巴巴新加坡控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110390911.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電機定子沖片加工系統
- 下一篇:一種玻璃鋼化糞池制造加工系統





