[發(fā)明專利]跨語言詞向量生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110452488.1 | 申請(qǐng)日: | 2021-04-25 |
| 公開(公告)號(hào): | CN113157865B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 郭維;阮曉雯;肖京 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/289;G06F40/30;G06N3/02;G06N3/08 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語言 向量 生成 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及人工智能技術(shù),揭露了一種跨語言詞向量生成方法,包括:獲取平行語料對(duì),對(duì)所述平行語料對(duì)進(jìn)行分詞處理,得到分詞語料對(duì),利用分詞語料對(duì)構(gòu)建平行語料網(wǎng)絡(luò),對(duì)所述平行語料網(wǎng)絡(luò)中的語料進(jìn)行隨機(jī)游走,得到混合語料序列,匯總平行語料對(duì)及混合語料序列,得到語料訓(xùn)練集,利用所述語料訓(xùn)練集訓(xùn)練預(yù)構(gòu)建的詞向量模型,得到跨語言詞向量生成模型,獲取跨語言語料,利用所述跨語言詞向量生成模型生成所述跨語言語料的跨語言詞向量。此外,本發(fā)明還涉及區(qū)塊鏈技術(shù),所述跨語言詞向量可存儲(chǔ)在區(qū)塊鏈的節(jié)點(diǎn)中。本發(fā)明還提出一種跨語言詞向量生成裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。本發(fā)明可以解決跨語言詞向量生成效率較低的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種跨語言詞向量生成方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
詞向量(Word?embedding)是自然語言處理(NLP)中的一組語言建模和特征學(xué)習(xí)技術(shù)的統(tǒng)稱,詞向量指的是來自詞匯表的單詞或短語被映射到實(shí)數(shù)的向量。從概念上講,它涉及從每個(gè)單詞一維的空間到具有更低維度的連續(xù)向量空間的數(shù)學(xué)嵌入。當(dāng)用作底層輸入表示時(shí),詞向量嵌入已經(jīng)被證明可以提高NLP任務(wù)的性能,例如語法分析和情感分析。目前主流的詞向量技術(shù)如word2vec大多為基于單一語種的單語言詞向量生成技術(shù)。然而,隨著全球化的發(fā)展,許多企業(yè)的應(yīng)用場(chǎng)景進(jìn)一步拓展到多語言環(huán)境下,對(duì)跨語言自然語言處理的需求進(jìn)一步增長(zhǎng),首當(dāng)其中的即為作為自然語言處理任務(wù)的底層輸入表示,跨語言詞向量。
傳統(tǒng)的跨語言詞向量生成方式主要有基于統(tǒng)計(jì)特征型及基于空間映射型。基于統(tǒng)計(jì)特征型的跨語言詞向量生成方法大多從語法語義的統(tǒng)計(jì)特征入手構(gòu)建向量或某種指標(biāo)進(jìn)行衡量,精度不高;基于空間映射型的跨語言詞向量生成方法指的是尋找一種映射方法能夠較好地將源語言空間中的向量映射到目標(biāo)語言的空間當(dāng)中,關(guān)鍵問題在于該種映射方法的表達(dá)能力可能有限,并且隨著映射方法表達(dá)能力的提升,訓(xùn)練的時(shí)間與空間要求都會(huì)變大,導(dǎo)致占用大量計(jì)算資源,跨語言詞向量生成的擴(kuò)展性及效率較低。
發(fā)明內(nèi)容
本發(fā)明提供一種跨語言詞向量生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其主要目的在于解決跨語言詞向量生成效率較低的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種跨語言詞向量生成方法,包括:
獲取平行語料對(duì),對(duì)所述平行語料對(duì)進(jìn)行分詞處理,得到分詞語料對(duì);
利用所述分詞語料對(duì)構(gòu)建平行語料網(wǎng)絡(luò);
對(duì)所述平行語料網(wǎng)絡(luò)中的語料進(jìn)行隨機(jī)游走,得到混合語料序列;
匯總所述平行語料對(duì)及所述混合語料序列,得到語料訓(xùn)練集,利用所述語料訓(xùn)練集訓(xùn)練預(yù)構(gòu)建的詞向量模型,得到跨語言詞向量生成模型;
獲取跨語言語料,利用所述跨語言詞向量生成模型生成所述跨語言語料的跨語言詞向量。
可選地,所述對(duì)所述平行語料對(duì)進(jìn)行分詞處理,得到分詞語料對(duì),包括:
對(duì)所述平行語料對(duì)中的語料進(jìn)行分詞處理,得到分詞結(jié)果;
根據(jù)預(yù)設(shè)的停用詞去除規(guī)則從所述分詞結(jié)果中篩選出一個(gè)或多個(gè)關(guān)鍵詞,匯總所有篩選出來的關(guān)鍵詞,得到所述分詞語料對(duì)。
可選地,所述利用所述分詞語料對(duì)構(gòu)建平行語料網(wǎng)絡(luò),包括:
確定所述分詞語料中的所有關(guān)鍵詞作為網(wǎng)絡(luò)節(jié)點(diǎn);
在任意所述網(wǎng)絡(luò)節(jié)點(diǎn)間構(gòu)建連邊,匯總所有網(wǎng)絡(luò)節(jié)點(diǎn)及連邊,得到所述平行語料網(wǎng)絡(luò)。
可選地,所述對(duì)所述平行語料網(wǎng)絡(luò)中的語料進(jìn)行隨機(jī)游走,得到混合語料序列,包括:
根據(jù)預(yù)設(shè)的轉(zhuǎn)移概率對(duì)所述平行語料網(wǎng)絡(luò)中各網(wǎng)絡(luò)節(jié)點(diǎn)的關(guān)鍵詞進(jìn)行隨機(jī)轉(zhuǎn)移;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110452488.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





