[發(fā)明專利]一種基于跨語言數(shù)據(jù)增強的分詞方法及裝置在審
| 申請?zhí)枺?/td> | 202110034450.2 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112765977A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設(shè)計)人: | 張建寧 | 申請(專利權(quán))人: | 百果園技術(shù)(新加坡)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/211;G06F9/451 |
| 代理公司: | 北京澤方譽航專利代理事務(wù)所(普通合伙) 11884 | 代理人: | 唐明磊 |
| 地址: | 巴西班讓路楓樹*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語言 數(shù)據(jù) 增強 分詞 方法 裝置 | ||
本申請實施例公開了一種基于跨語言數(shù)據(jù)增強的分詞方法及裝置。本申請實施例提供的技術(shù)方案通過采集高資源語言數(shù)據(jù)處理得到分詞語料,采集低資源語言數(shù)據(jù)獲取候選分詞,并根據(jù)從高資源語言數(shù)據(jù)處獲得的分詞語料對候選分詞進行甄選,選擇與分詞語料匹配度高的作為低資源語言數(shù)據(jù)的分詞語料,并根據(jù)低資源分詞語料進行分詞模型的訓練,可以實現(xiàn)對低資源語言數(shù)據(jù)基于模型自動輸出分詞候選結(jié)果,結(jié)合分詞候選結(jié)果與高資源語言數(shù)據(jù)的分詞語料的匹配度進行選取分詞結(jié)果,通過使用高資源語言的語料對低資源語言的模型訓練數(shù)據(jù)進行自動擴充和驗證,解決了數(shù)據(jù)資源和標注資源在不同語言之間不平衡的問題,為迭代分詞模型提供了一種更輕量而高效的解決方式。
技術(shù)領(lǐng)域
本申請實施例涉及分詞技術(shù)領(lǐng)域,尤其涉及一種基于跨語言數(shù)據(jù)增強的分詞方法、一種基于跨語言數(shù)據(jù)增強的分詞裝置、基于跨語言數(shù)據(jù)增強的分詞設(shè)備及存儲介質(zhì)。
背景技術(shù)
由于信息化進程的發(fā)展,對用戶提供搜索和推薦服務(wù)是目前信息時代的普遍需求。首先需要對句子進行合理的分詞。傳統(tǒng)的分詞任務(wù)認為,對于英文這類天然帶有空格的句子,只需要按照空格分詞即可。然而與傳統(tǒng)的分詞任務(wù)的假設(shè)不同的是,現(xiàn)實中的用戶并不會嚴格按照語法進行分詞,而是常常把若干個詞連在一起輸入。錯誤的分詞會影響到下游的任務(wù),比如:實體識別、語義識別等。因此,需要根據(jù)業(yè)務(wù)場景訓練特殊的分詞器。而分詞模型的訓練需要大量的語料,但是對于一些數(shù)據(jù)相對稀缺的國家和地區(qū),由于業(yè)務(wù)處于較為早期的階段,缺少足夠的用戶數(shù)據(jù),也缺乏相應的標注資源,語料資源的獲取變得尤為艱難。
現(xiàn)有的分詞方案主要分為兩類,一類是基于概率統(tǒng)計的詞典法,另一類是基于神經(jīng)網(wǎng)絡(luò)的模型法。詞典法的主要邏輯是收集足夠多的詞和這些詞的詞頻,通過計算不同的分詞組合的概率得到最終的分詞結(jié)果。模型法的主要邏輯則是采用序列標注的方法,通過特征的轉(zhuǎn)移概率計算出全局最優(yōu)的序列組合,并將這個序列轉(zhuǎn)換為分詞結(jié)果。這兩種方法都需要足夠多的訓練語料,但是對低資源地區(qū)的訓練語料的獲取較為困難。現(xiàn)在的涉及低資源地區(qū)的較為流行的解決方案是借助谷歌提供的mBERT模型。首先下載在大規(guī)模數(shù)據(jù)集上預訓練好的模型,再在每個LRL上用小數(shù)據(jù)集進行精調(diào)。BERT模型會將文字轉(zhuǎn)換成向量,再將這些向量作為特征輸入后續(xù)的模型中進行預測。但是谷歌提供的BERT預訓練模型是已經(jīng)分好詞的,向量也是基于詞的向量,因此不能直接被運用于分詞任務(wù)中。而且BERT的預訓練模型是在正式語料(如新聞、博客文章等)中進行訓練的,缺少在一個產(chǎn)品的社交生態(tài)中產(chǎn)生的獨特的語境。
發(fā)明內(nèi)容
本申請實施例提供一種基于跨語言數(shù)據(jù)增強的分詞方法、裝置、設(shè)備及存儲介質(zhì),以實現(xiàn)利用高資源語言地區(qū)的語料作為低資源語言地區(qū)的擴充和驗證以對低資源語言進行分詞,打破語言資源不平衡的問題。
在第一方面,本申請實施例提供了一種基于跨語言數(shù)據(jù)增強的分詞方法,包括:
采集若干組高資源語言數(shù)據(jù),根據(jù)每一組所述高資源語言數(shù)據(jù)處理得到一組第一分詞語料;若干組第一分詞語料構(gòu)成第一分詞語料庫;
采集若干低資源語言數(shù)據(jù),根據(jù)低資源語言數(shù)據(jù)處理得到若干候選分詞,基于每一個候選分詞與第一分詞語料庫之間的匹配度從若干候選分詞中選取第二分詞語料;
基于第二分詞語料訓練得到分詞模型,將若干待分詞數(shù)據(jù)輸入至分詞模型中以輸出多個分詞候選結(jié)果;
基于每一個分詞候選結(jié)果與第一分詞語料庫之間的匹配度,選取匹配度最高的分詞候選結(jié)果作為分詞結(jié)果。
在第二方面,本申請實施例提供了一種基于跨語言數(shù)據(jù)增強的分詞裝置,包括:
第一采集模塊:用于采集若干組高資源語言數(shù)據(jù),根據(jù)每一組所述高資源語言數(shù)據(jù)處理得到一組第一分詞語料;若干組第一分詞語料構(gòu)成第一分詞語料庫;
第二采集模塊:用于采集若干低資源語言數(shù)據(jù),根據(jù)低資源語言數(shù)據(jù)處理得到若干候選分詞,基于每一個候選分詞與第一分詞語料庫之間的匹配度從若干候選份分詞中選取第二分詞語料;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百果園技術(shù)(新加坡)有限公司,未經(jīng)百果園技術(shù)(新加坡)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110034450.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





