[發(fā)明專利]一種基于跨語言數(shù)據(jù)增強的分詞方法及裝置在審

申請?zhí)枺?/td>	202110034450.2	申請日：	2021-01-11
公開（公告）號：	CN112765977A	公開（公告）日：	2021-05-07
發(fā)明（設(shè)計）人：	張建寧	申請（專利權(quán)）人：	百果園技術(shù)（新加坡）有限公司
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/284;G06F40/211;G06F9/451
代理公司：	北京澤方譽航專利代理事務(wù)所(普通合伙) 11884	代理人：	唐明磊
地址：	巴西班讓路楓樹***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于語言數(shù)據(jù) 增強分詞方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例公開了一種基于跨語言數(shù)據(jù)增強的分詞方法及裝置。本申請實施例提供的技術(shù)方案通過采集高資源語言數(shù)據(jù)處理得到分詞語料，采集低資源語言數(shù)據(jù)獲取候選分詞，并根據(jù)從高資源語言數(shù)據(jù)處獲得的分詞語料對候選分詞進行甄選，選擇與分詞語料匹配度高的作為低資源語言數(shù)據(jù)的分詞語料，并根據(jù)低資源分詞語料進行分詞模型的訓練，可以實現(xiàn)對低資源語言數(shù)據(jù)基于模型自動輸出分詞候選結(jié)果，結(jié)合分詞候選結(jié)果與高資源語言數(shù)據(jù)的分詞語料的匹配度進行選取分詞結(jié)果，通過使用高資源語言的語料對低資源語言的模型訓練數(shù)據(jù)進行自動擴充和驗證，解決了數(shù)據(jù)資源和標注資源在不同語言之間不平衡的問題，為迭代分詞模型提供了一種更輕量而高效的解決方式。

技術(shù)領(lǐng)域

本申請實施例涉及分詞技術(shù)領(lǐng)域，尤其涉及一種基于跨語言數(shù)據(jù)增強的分詞方法、一種基于跨語言數(shù)據(jù)增強的分詞裝置、基于跨語言數(shù)據(jù)增強的分詞設(shè)備及存儲介質(zhì)。

背景技術(shù)

由于信息化進程的發(fā)展，對用戶提供搜索和推薦服務(wù)是目前信息時代的普遍需求。首先需要對句子進行合理的分詞。傳統(tǒng)的分詞任務(wù)認為，對于英文這類天然帶有空格的句子，只需要按照空格分詞即可。然而與傳統(tǒng)的分詞任務(wù)的假設(shè)不同的是，現(xiàn)實中的用戶并不會嚴格按照語法進行分詞，而是常常把若干個詞連在一起輸入。錯誤的分詞會影響到下游的任務(wù)，比如：實體識別、語義識別等。因此，需要根據(jù)業(yè)務(wù)場景訓練特殊的分詞器。而分詞模型的訓練需要大量的語料，但是對于一些數(shù)據(jù)相對稀缺的國家和地區(qū)，由于業(yè)務(wù)處于較為早期的階段，缺少足夠的用戶數(shù)據(jù)，也缺乏相應的標注資源，語料資源的獲取變得尤為艱難。

現(xiàn)有的分詞方案主要分為兩類，一類是基于概率統(tǒng)計的詞典法，另一類是基于神經(jīng)網(wǎng)絡(luò)的模型法。詞典法的主要邏輯是收集足夠多的詞和這些詞的詞頻，通過計算不同的分詞組合的概率得到最終的分詞結(jié)果。模型法的主要邏輯則是采用序列標注的方法，通過特征的轉(zhuǎn)移概率計算出全局最優(yōu)的序列組合，并將這個序列轉(zhuǎn)換為分詞結(jié)果。這兩種方法都需要足夠多的訓練語料，但是對低資源地區(qū)的訓練語料的獲取較為困難。現(xiàn)在的涉及低資源地區(qū)的較為流行的解決方案是借助谷歌提供的mBERT模型。首先下載在大規(guī)模數(shù)據(jù)集上預訓練好的模型，再在每個LRL上用小數(shù)據(jù)集進行精調(diào)。BERT模型會將文字轉(zhuǎn)換成向量，再將這些向量作為特征輸入后續(xù)的模型中進行預測。但是谷歌提供的BERT預訓練模型是已經(jīng)分好詞的，向量也是基于詞的向量，因此不能直接被運用于分詞任務(wù)中。而且BERT的預訓練模型是在正式語料(如新聞、博客文章等)中進行訓練的，缺少在一個產(chǎn)品的社交生態(tài)中產(chǎn)生的獨特的語境。

發(fā)明內(nèi)容

本申請實施例提供一種基于跨語言數(shù)據(jù)增強的分詞方法、裝置、設(shè)備及存儲介質(zhì)，以實現(xiàn)利用高資源語言地區(qū)的語料作為低資源語言地區(qū)的擴充和驗證以對低資源語言進行分詞，打破語言資源不平衡的問題。

在第一方面，本申請實施例提供了一種基于跨語言數(shù)據(jù)增強的分詞方法，包括：

采集若干組高資源語言數(shù)據(jù)，根據(jù)每一組所述高資源語言數(shù)據(jù)處理得到一組第一分詞語料；若干組第一分詞語料構(gòu)成第一分詞語料庫；

采集若干低資源語言數(shù)據(jù)，根據(jù)低資源語言數(shù)據(jù)處理得到若干候選分詞，基于每一個候選分詞與第一分詞語料庫之間的匹配度從若干候選分詞中選取第二分詞語料；

基于第二分詞語料訓練得到分詞模型，將若干待分詞數(shù)據(jù)輸入至分詞模型中以輸出多個分詞候選結(jié)果；

基于每一個分詞候選結(jié)果與第一分詞語料庫之間的匹配度，選取匹配度最高的分詞候選結(jié)果作為分詞結(jié)果。

在第二方面，本申請實施例提供了一種基于跨語言數(shù)據(jù)增強的分詞裝置，包括：

第一采集模塊：用于采集若干組高資源語言數(shù)據(jù)，根據(jù)每一組所述高資源語言數(shù)據(jù)處理得到一組第一分詞語料；若干組第一分詞語料構(gòu)成第一分詞語料庫；

第二采集模塊：用于采集若干低資源語言數(shù)據(jù)，根據(jù)低資源語言數(shù)據(jù)處理得到若干候選分詞，基于每一個候選分詞與第一分詞語料庫之間的匹配度從若干候選份分詞中選取第二分詞語料；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百果園技術(shù)（新加坡）有限公司，未經(jīng)百果園技術(shù)（新加坡）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110034450.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種兒科醫(yī)生用兒科負壓洗胃裝置
下一篇：服務(wù)于知識圖譜的數(shù)據(jù)處理方法和系統(tǒng)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】