[發(fā)明專(zhuān)利]跨語(yǔ)言非標(biāo)準(zhǔn)詞識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010122519.2 | 申請(qǐng)日: | 2020-02-27 |
| 公開(kāi)(公告)號(hào): | CN110991176B | 公開(kāi)(公告)日: | 2020-07-14 |
| 發(fā)明(設(shè)計(jì))人: | 閆啟偉;郝玉峰;黃宇凱;曹瓊;李科;宋瓊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京海天瑞聲科技股份有限公司 |
| 主分類(lèi)號(hào): | G06F40/284 | 分類(lèi)號(hào): | G06F40/284;G06F40/247 |
| 代理公司: | 北京鉦霖知識(shí)產(chǎn)權(quán)代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100083 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)言 非標(biāo)準(zhǔn) 識(shí)別 方法 裝置 | ||
本公開(kāi)是關(guān)于一種跨語(yǔ)言非標(biāo)準(zhǔn)詞識(shí)別方法及裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。其中跨語(yǔ)言非標(biāo)準(zhǔn)詞識(shí)別方法包括:獲取目標(biāo)語(yǔ)言語(yǔ)料;對(duì)所述目標(biāo)語(yǔ)言語(yǔ)料進(jìn)行分詞處理;對(duì)所述分詞后的目標(biāo)語(yǔ)言語(yǔ)料中的非標(biāo)準(zhǔn)詞進(jìn)行預(yù)處理;確定所述目標(biāo)語(yǔ)言語(yǔ)料中目標(biāo)詞在源語(yǔ)言中的替代詞向量及替代權(quán)重;通過(guò)所述替代詞向量及替代權(quán)重,使用源語(yǔ)言的非標(biāo)準(zhǔn)詞識(shí)別模型,確定所述目標(biāo)語(yǔ)言的非標(biāo)準(zhǔn)詞類(lèi)別。通過(guò)借助詞向量、雙語(yǔ)詞典對(duì)應(yīng)的語(yǔ)義信息,將源語(yǔ)言的非標(biāo)準(zhǔn)詞類(lèi)型識(shí)別模型,遷移到目標(biāo)語(yǔ)言,用來(lái)進(jìn)行目標(biāo)語(yǔ)言的非標(biāo)準(zhǔn)詞的類(lèi)型識(shí)別,避免了目標(biāo)語(yǔ)言語(yǔ)料稀少的問(wèn)題,同時(shí)具有良好的可遷移性。
技術(shù)領(lǐng)域
本公開(kāi)涉及文本處理領(lǐng)域,尤其涉及跨語(yǔ)言非標(biāo)準(zhǔn)詞識(shí)別方法及裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
文本中,非標(biāo)準(zhǔn)詞之外,由本語(yǔ)言的字符構(gòu)成,符合正字法的詞,稱(chēng)為標(biāo)準(zhǔn)詞。除了本語(yǔ)言的字符、標(biāo)點(diǎn)符號(hào)外,還有很多其他的符號(hào),比如阿拉伯?dāng)?shù)字(0-9)、貨幣符號(hào)(如:¥、$、€)、數(shù)學(xué)符號(hào)(如:≥、+等)、物理符號(hào)(如:km、kg、℃)等。這些符號(hào)或詞,在常用詞典中查不到,它們的讀音也不能通過(guò)正常的發(fā)音規(guī)則得到,而且在不同的上下文中,其意義和讀法往往也不同。這些詞,被稱(chēng)為非標(biāo)準(zhǔn)詞。如下,是中文文本中的非標(biāo)準(zhǔn)詞的例子:
發(fā)表于:2006-09-11 12:28。
我打算在網(wǎng)上訂機(jī)票,但是出發(fā)時(shí)間是12:30AM。
1996年,全區(qū)總?cè)丝诳刂圃冢常玻慈f(wàn)人,出生率下降到14.55‰,自然增長(zhǎng)率9.43‰。
北京洋海館門(mén)票門(mén)市價(jià):成人100元/人。
解語(yǔ)文和外語(yǔ)總分為2×90=180。
文本正則化是語(yǔ)音合成等文本處理任務(wù)中的重要環(huán)節(jié)。文本正則化是將非標(biāo)準(zhǔn)詞轉(zhuǎn)換成標(biāo)準(zhǔn)詞,以確定其讀音的過(guò)程。在文本正則化的過(guò)程中,對(duì)非標(biāo)準(zhǔn)詞的處理往往是用戶(hù)關(guān)注的焦點(diǎn),如日期、價(jià)格、電話(huà)號(hào)碼、機(jī)構(gòu)名等,因此文本標(biāo)準(zhǔn)化直接影響語(yǔ)音服務(wù)的質(zhì)量。目前文本正則化,主要分兩步:非標(biāo)準(zhǔn)詞類(lèi)型識(shí)別及標(biāo)準(zhǔn)詞生成。
非標(biāo)準(zhǔn)詞類(lèi)型識(shí)別,是識(shí)別出非標(biāo)準(zhǔn)詞的類(lèi)型,如“日期”、“時(shí)刻”、“數(shù)值+單位”、“電話(huà)號(hào)碼”等。標(biāo)準(zhǔn)詞生成,是根據(jù)識(shí)別出的非標(biāo)準(zhǔn)詞類(lèi)型,按照該類(lèi)型的讀法習(xí)慣,將非標(biāo)準(zhǔn)詞轉(zhuǎn)換成對(duì)應(yīng)的標(biāo)準(zhǔn)詞的過(guò)程。而非標(biāo)準(zhǔn)詞的形式復(fù)雜多樣,難于歸納,而且非標(biāo)準(zhǔn)詞常有歧義,需要借助上下文進(jìn)行判定,考慮到很多語(yǔ)言、特別是小語(yǔ)種的語(yǔ)言專(zhuān)家和標(biāo)注人員的資源稀缺性,這些語(yǔ)言的非標(biāo)準(zhǔn)詞處理往往代價(jià)巨大。
發(fā)明內(nèi)容
為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種跨語(yǔ)言非標(biāo)準(zhǔn)詞識(shí)別方法及裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種跨語(yǔ)言非標(biāo)準(zhǔn)詞識(shí)別方法,方法包括:獲取目標(biāo)語(yǔ)言語(yǔ)料;對(duì)目標(biāo)語(yǔ)言語(yǔ)料進(jìn)行分詞處理;對(duì)分詞后的目標(biāo)語(yǔ)言語(yǔ)料中的非標(biāo)準(zhǔn)詞進(jìn)行預(yù)處理;確定目標(biāo)語(yǔ)言語(yǔ)料中目標(biāo)詞在源語(yǔ)言中的替代詞向量及替代權(quán)重;通過(guò)替代詞向量及替代權(quán)重,使用源語(yǔ)言的非標(biāo)準(zhǔn)詞識(shí)別模型,確定目標(biāo)語(yǔ)言的非標(biāo)準(zhǔn)詞類(lèi)別。
在一實(shí)施例中,對(duì)分詞后的目標(biāo)語(yǔ)言語(yǔ)料中的非標(biāo)準(zhǔn)詞進(jìn)行預(yù)處理,包括:將非標(biāo)準(zhǔn)詞中的數(shù)字轉(zhuǎn)化為固定格式,保留非標(biāo)準(zhǔn)詞中包含的特殊字符,特殊字符包括:數(shù)學(xué)符號(hào)、貨幣符號(hào)和物理符號(hào)中的任意一種或多種字符。
在一實(shí)施例中,目標(biāo)詞為分詞后的目標(biāo)語(yǔ)言語(yǔ)料中完整句子的全部詞,或以非標(biāo)準(zhǔn)詞為中心上下文窗口長(zhǎng)度內(nèi)的詞。
在一實(shí)施例中,確定目標(biāo)語(yǔ)言語(yǔ)料中目標(biāo)詞在源語(yǔ)言中的替代詞向量及替代權(quán)重,包括:基于雙語(yǔ)詞典確定目標(biāo)詞在源語(yǔ)言中的替代詞,并設(shè)置替代權(quán)重;將源語(yǔ)言中的替代詞向量化得到替代詞向量。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京海天瑞聲科技股份有限公司,未經(jīng)北京海天瑞聲科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010122519.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





