[發(fā)明專(zhuān)利]一種拼音標(biāo)注方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110013709.5 | 申請(qǐng)日: | 2021-01-06 |
| 公開(kāi)(公告)號(hào): | CN112686041A | 公開(kāi)(公告)日: | 2021-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 楊明祺;馬楠;高強(qiáng);蔣榮正;夏龍;郭常圳 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京猿力未來(lái)科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/289 | 分類(lèi)號(hào): | G06F40/289;G06F40/216 |
| 代理公司: | 北京智信禾專(zhuān)利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽(yáng)區(qū)廣順南大*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 拼音 標(biāo)注 方法 裝置 | ||
本申請(qǐng)?zhí)峁┮环N拼音標(biāo)注方法及裝置,其中所述拼音標(biāo)注方法包括:對(duì)待處理文本進(jìn)行分詞處理生成多個(gè)詞單元集合,所述待處理文本中包含至少一個(gè)多音字,根據(jù)預(yù)先建立的拼音詞表分別對(duì)所述多個(gè)詞單元集合中的單音字進(jìn)行拼音標(biāo)注,生成所述多個(gè)詞單元集合分別對(duì)應(yīng)的初始拼音序列,對(duì)所述初始拼音序列進(jìn)行拼接生成所述待處理文本對(duì)應(yīng)的中間拼音序列,并基于所述中間拼音序列生成所述待處理文本對(duì)應(yīng)的語(yǔ)音數(shù)據(jù),提取所述語(yǔ)音數(shù)據(jù)的第一音頻特征,基于所述第一音頻特征以及所述中間拼音序列對(duì)所述至少一個(gè)多音字進(jìn)行拼音打分預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果確定所述至少一個(gè)多音字的拼音標(biāo)注結(jié)果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及文本處理技術(shù)領(lǐng)域,特別涉及一種拼音標(biāo)注方法及裝置、計(jì)算設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,更多的應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)的數(shù)量和質(zhì)量要求變得越來(lái)越高,并且不同的場(chǎng)景所使用數(shù)據(jù)也是不同的,在機(jī)器學(xué)習(xí)領(lǐng)域中,不同的使用需求將構(gòu)建不同的模型,而不同的模型也需要使用不同的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,如圖像處理場(chǎng)景,就需要使用圖像數(shù)據(jù)訓(xùn)練該場(chǎng)景中應(yīng)用的模型;如音頻處理場(chǎng)景,就需要使用音頻數(shù)據(jù)訓(xùn)練該場(chǎng)景中應(yīng)用的模型;如文本處理場(chǎng)景,就需要使用文本數(shù)據(jù)訓(xùn)練該場(chǎng)景中應(yīng)用的模型等;而為了能夠訓(xùn)練出滿足使用需求的模型,需要在數(shù)據(jù)準(zhǔn)備階段對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理,如打標(biāo),構(gòu)建樣本對(duì)等等,都是滿足模型訓(xùn)練需求的準(zhǔn)備操作,該過(guò)程直接影響著訓(xùn)練出的模型的精準(zhǔn)度,現(xiàn)有技術(shù)在對(duì)樣本數(shù)據(jù)進(jìn)行打標(biāo)時(shí),都是通過(guò)人工標(biāo)注的方式實(shí)現(xiàn),不僅效率低下,而且人工標(biāo)注的方式無(wú)法保證準(zhǔn)度率,進(jìn)而容易在訓(xùn)練模型時(shí)造成誤差,因此亟需一種有效的方案以解決上述問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供了一種拼音標(biāo)注方法及裝置、計(jì)算設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
根據(jù)本申請(qǐng)實(shí)施例的第一方面,提供了一種拼音標(biāo)注方法,包括:
對(duì)待處理文本進(jìn)行分詞處理生成多個(gè)詞單元集合,所述待處理文本中包含至少一個(gè)多音字;
根據(jù)預(yù)先建立的拼音詞表分別對(duì)所述多個(gè)詞單元集合中的單音字進(jìn)行拼音標(biāo)注,生成所述多個(gè)詞單元集合分別對(duì)應(yīng)的初始拼音序列;
對(duì)所述初始拼音序列進(jìn)行拼接生成所述待處理文本對(duì)應(yīng)的中間拼音序列,并基于所述中間拼音序列生成所述待處理文本對(duì)應(yīng)的語(yǔ)音數(shù)據(jù);
提取所述語(yǔ)音數(shù)據(jù)的第一音頻特征,基于所述第一音頻特征以及所述中間拼音序列對(duì)所述至少一個(gè)多音字進(jìn)行拼音打分預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果確定所述至少一個(gè)多音字的拼音標(biāo)注結(jié)果。
可選地,所述對(duì)待處理文本進(jìn)行分詞處理生成多個(gè)詞單元集合,包括:
通過(guò)匹配算法對(duì)所述待處理文本進(jìn)行分詞處理,生成多個(gè)詞單元集合。
可選地,所述對(duì)待處理文本進(jìn)行分詞處理生成多個(gè)詞單元集合,包括:
通過(guò)負(fù)向最大匹配算法對(duì)所述待處理文本進(jìn)行分詞處理,生成多個(gè)詞單元集合。
可選地,所述對(duì)待處理文本進(jìn)行分詞處理生成多個(gè)詞單元集合,包括:
查詢(xún)預(yù)先建立的拼音詞表中是否包含所述待處理文本的第i個(gè)詞單元,其中,i從1開(kāi)始取值且i為正整數(shù);
若否,則將所述第i個(gè)詞單元作為一個(gè)詞單元集合;
i自增1,并返回執(zhí)行所述查詢(xún)預(yù)先建立的拼音詞表中是否包含所述待處理文本的第i個(gè)詞單元的步驟。
可選地,若所述查詢(xún)預(yù)先建立的拼音詞表中是否包含所述待處理文本的第i個(gè)詞單元的運(yùn)行結(jié)果為是,則所述對(duì)待處理文本進(jìn)行分詞處理生成多個(gè)詞單元集合,還包括:
查詢(xún)所述拼音詞表中是否包含由第i至第i+n個(gè)詞單元組成的詞組,其中,n從1開(kāi)始取值,且n為正整數(shù);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京猿力未來(lái)科技有限公司,未經(jīng)北京猿力未來(lái)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110013709.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 標(biāo)注信息生成裝置、查詢(xún)裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





