[發(fā)明專利]語料數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011406813.2 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112668324A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設(shè)計)人: | 郝澤宇 | 申請(專利權(quán))人: | 北京達佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F40/205;G06K9/62 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語料 數(shù)據(jù)處理 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開關(guān)于一種語料數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括獲取語料數(shù)據(jù);基于詞性標(biāo)注對所述語料數(shù)據(jù)進行分詞處理,得到第一分詞結(jié)果和所述第一分詞結(jié)果對應(yīng)的詞性信息;利用所述第一分詞結(jié)果對應(yīng)的詞性信息對所述第一分詞結(jié)果進行擴展處理,得到第二分詞結(jié)果;基于詞典分詞算法對所述第二分詞結(jié)果中的詞進行分詞處理,得到第三分詞結(jié)果。利用本公開實施例可以多維度的語料分詞處理,大大提高分詞結(jié)果的精準(zhǔn)性,有效避免了分詞結(jié)果散亂錯誤,語言模型的語料不完善的問題。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,尤其涉及語料數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著人工智能技術(shù)的不斷普及和完善,語音識別技術(shù)受到了越來越多的矚目。語料,即語言材料,是構(gòu)建語言模型的原料。語言模型的建模單位是詞,因此會對語料進行分詞處理,而分詞結(jié)果的不同,會對語言模型性能產(chǎn)生不同影響。相關(guān)技術(shù)中,對語料數(shù)據(jù)進行分詞時,會根據(jù)詞表的最大匹配來進行分詞,但語言的千變?nèi)f化,詞表常常無法對語料進行完善的覆蓋,存在分詞結(jié)果散亂錯誤,語言模型的語料不完善等問題,導(dǎo)致后續(xù)構(gòu)建語言模型性能差,語言識別準(zhǔn)率低。
發(fā)明內(nèi)容
本公開提供一種語料數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì),以至少解決相關(guān)技術(shù)中分詞結(jié)果散亂錯誤,語言模型的語料不完善的問題。本公開的技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種語料數(shù)據(jù)處理方法,包括:
獲取語料數(shù)據(jù);
基于詞性標(biāo)注對所述語料數(shù)據(jù)進行分詞處理,得到第一分詞結(jié)果和所述第一分詞結(jié)果對應(yīng)的詞性信息;
利用所述第一分詞結(jié)果對應(yīng)的詞性信息對所述第一分詞結(jié)果進行擴展處理,得到第二分詞結(jié)果;
基于詞典分詞算法對所述第二分詞結(jié)果中的詞進行分詞處理,得到第三分詞結(jié)果。
可選的,所述利用所述第一分詞結(jié)果對應(yīng)的詞性信息對所述第一分詞結(jié)果進行擴展處理,得到第二分詞結(jié)果包括:
將所述第一分詞結(jié)果對應(yīng)的詞性信息與預(yù)設(shè)詞性信息進行匹配;
當(dāng)所述第一分詞結(jié)果中任一詞的詞性信息與所述預(yù)設(shè)詞性信息相匹配時,將與所述預(yù)設(shè)詞性信息相匹配的詞性信息對應(yīng)的詞作為擴展詞;
將所述第一分詞結(jié)果中包括所述擴展詞的分詞結(jié)果作為待擴展分詞結(jié)果;
基于所述待擴展分詞結(jié)果和所述擴展詞進行語料擴展,得到目標(biāo)擴展分詞結(jié)果;
將所述目標(biāo)擴展分詞結(jié)果和所述第一分詞結(jié)果作為所述第二分詞結(jié)果。
可選的,所述預(yù)設(shè)詞性信息包括多個預(yù)設(shè)詞性;所述基于所述待擴展分詞結(jié)果和所述擴展詞進行語料擴展,得到目標(biāo)擴展分詞結(jié)果包括:
將詞性信息與同一預(yù)設(shè)詞性相匹配的擴展詞,劃分為同一目標(biāo)擴展詞組;
遍歷每個目標(biāo)擴展詞組中的擴展詞,在遍歷到每個擴展詞時,基于當(dāng)前遍歷到的擴展詞的同組擴展詞,對包括所述當(dāng)前遍歷到的擴展詞的待擴展分詞結(jié)果進行擴展詞替換處理,得到擴展分詞結(jié)果;
在遍歷結(jié)束時,將遍歷過程中得到的擴展分詞結(jié)果,作為所述目標(biāo)擴展分詞結(jié)果;
其中,所述當(dāng)前遍歷到的擴展詞的同組擴展詞為所述當(dāng)前遍歷到的擴展詞所在目標(biāo)擴展詞組中除所述當(dāng)前遍歷到的擴展詞以外的擴展詞。
可選的,所述語料數(shù)據(jù)包括多個句子,所述基于詞性標(biāo)注對所述語料數(shù)據(jù)進行分詞處理,得到第一分詞結(jié)果和所述第一分詞結(jié)果對應(yīng)的詞性信息包括:
基于前綴詞典對每個句子進行切分,得到所述每個句子的初始分詞結(jié)果;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011406813.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





