[發(fā)明專利]文本標(biāo)注方法和裝置有效
| 申請?zhí)枺?/td> | 202010129824.4 | 申請日: | 2020-02-28 |
| 公開(公告)號(hào): | CN111414731B | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 李京蔚;孫于惠;李響 | 申請(專利權(quán))人: | 北京小米松果電子有限公司 |
| 主分類號(hào): | G06F40/117 | 分類號(hào): | G06F40/117;G06F40/169;G06F16/35;G06N3/0464;G06N3/08 |
| 代理公司: | 北京名華博信知識(shí)產(chǎn)權(quán)代理有限公司 11453 | 代理人: | 姜超 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 標(biāo)注 方法 裝置 | ||
本公開是關(guān)于一種文本標(biāo)注方法和裝置。涉及深度學(xué)習(xí)領(lǐng)域,解決了特征提取過程效率低下及準(zhǔn)確率低的問題。該方法包括:處理輸入信息,得到所述輸入信息的詞嵌入表示信息;對所述詞嵌入表示信息進(jìn)行動(dòng)態(tài)卷積特征提取,獲取所述詞嵌入表示信息中各個(gè)字符的分類結(jié)果;根據(jù)所述分類結(jié)果,向所述輸入信息中插入標(biāo)注。本公開提供的技術(shù)方案適用于語音識(shí)別過程中,實(shí)現(xiàn)了準(zhǔn)確、高效的文本標(biāo)點(diǎn)標(biāo)注。
技術(shù)領(lǐng)域
本公開涉及深度學(xué)習(xí)領(lǐng)域,尤其涉及一種文本標(biāo)注方法和裝置。
背景技術(shù)
在很多語音識(shí)別的應(yīng)用場景中,語音識(shí)別的結(jié)果通常是不包含任何標(biāo)點(diǎn)符號(hào)的。這樣得到的識(shí)別結(jié)果文本是沒有斷句的,如果直接把這樣沒有斷句的文本交給下游任務(wù)的話,就會(huì)降低下游任務(wù)的執(zhí)行質(zhì)量,因?yàn)橄掠稳蝿?wù)對斷句和標(biāo)點(diǎn)是存在一定敏感性的。因此,通過對語音識(shí)別結(jié)果文本加上標(biāo)點(diǎn)就能夠提升系統(tǒng)整體的處理質(zhì)量。例如在翻譯機(jī)場景中,用戶說的一段話通過短語音識(shí)別(Automatic?Speech?Recognition,簡稱ASR)識(shí)別成了“他新買了一輛車車牌號(hào)是滬B九六R幺幺”這一結(jié)果,這個(gè)識(shí)別結(jié)果存在車與車牌之間沒有進(jìn)行斷句的問題。正確的結(jié)果應(yīng)該為“他新買了一輛車,車牌號(hào)是滬B九六R幺幺。”,但由于ASR輸入的只有用戶的語音并且沒有斷句功能,因此只能得到無標(biāo)點(diǎn)的識(shí)別結(jié)果。由于缺少標(biāo)點(diǎn)無法斷句,導(dǎo)致識(shí)別結(jié)果的語義不明確,這樣的結(jié)果顯示在翻譯機(jī)的屏幕上會(huì)影響用戶的使用體驗(yàn)。不僅如此,沒有斷句的語音識(shí)別結(jié)果輸入到翻譯模型中有可能導(dǎo)致翻譯任務(wù)翻譯不準(zhǔn)確的問題,因?yàn)闆]有經(jīng)過斷句的句子容易造成歧義。因此,對未加標(biāo)點(diǎn)的文本打標(biāo)點(diǎn)是非常有意義并且重要的。
常見的標(biāo)點(diǎn)預(yù)測方法一般包括如下兩種:
1、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對序列進(jìn)行特征提取并進(jìn)行標(biāo)點(diǎn)預(yù)測;
2、基于自注意力機(jī)制(Self?Attention)對序列進(jìn)行特征提取并進(jìn)行標(biāo)點(diǎn)預(yù)測。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法存在特征提取慢以及遺忘的問題,因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)序上是存在依賴關(guān)系的,下一時(shí)刻的結(jié)果依賴于上一時(shí)刻的輸出,這就導(dǎo)致在語音長度較長的情況下特征提取速度慢的問題。而且由于模型本身的問題,輸入的語音長度較長會(huì)引起遺忘問題的出現(xiàn)。
基于自注意力機(jī)制的方法雖然在時(shí)序上沒有依賴關(guān)系,但是其每個(gè)時(shí)刻的特征是由所有上下文信息加權(quán)得到的,這樣如果輸入文本很長的情況下就會(huì)導(dǎo)致效率低下。且基于所有上下文信息進(jìn)行判斷,在上下文信息量較大的情況下,會(huì)影響插入標(biāo)點(diǎn)判斷結(jié)果的準(zhǔn)確性,導(dǎo)致了對長文本添加標(biāo)點(diǎn)的處理準(zhǔn)確率不高。
發(fā)明內(nèi)容
為克服相關(guān)技術(shù)中存在的問題,本公開提供一種文本標(biāo)注方法和裝置。
根據(jù)本公開實(shí)施例的第一方面,提供一種文本標(biāo)注方法,包括:
處理輸入信息,得到所述輸入信息的詞嵌入表示信息;
對所述詞嵌入表示信息進(jìn)行動(dòng)態(tài)卷積特征提取,獲取所述詞嵌入表示信息中各個(gè)字符的分類結(jié)果;
根據(jù)所述分類結(jié)果,向所述輸入信息中插入標(biāo)注。
優(yōu)選的,所述處理輸入信息,得到所述輸入信息的詞嵌入表示信息的步驟包括:
將所述輸入信息中的每個(gè)字符轉(zhuǎn)化為各自的唯一的詞表示符;
對所述詞表示符進(jìn)行詞嵌入層處理,得到各個(gè)詞表示符對應(yīng)的詞嵌入表示,構(gòu)成所述輸入信息的詞嵌入表示信息。
優(yōu)選的,所述對所述詞嵌入表示信息進(jìn)行動(dòng)態(tài)卷積特征提取,獲取所述詞嵌入表示信息中各個(gè)字符的分類結(jié)果的步驟包括:
對每個(gè)字符對應(yīng)的時(shí)刻窗口內(nèi)的詞嵌入層信息作為特征提取的上下文信息;
對所述上下文信息進(jìn)行動(dòng)態(tài)卷積特征提取,獲取所述詞嵌入表示信息中各個(gè)字符的分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米松果電子有限公司,未經(jīng)北京小米松果電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010129824.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





