[發明專利]一種跨語言詞嵌入的方法、移動終端和計算機存儲介質在審
| 申請號: | 202011175684.0 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112287692A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 唐麗萍;羅智泉 | 申請(專利權)人: | 香港中文大學(深圳) |
| 主分類號: | G06F40/42 | 分類號: | G06F40/42;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深聯知識產權代理事務所(普通合伙) 44357 | 代理人: | 黃立強 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 嵌入 方法 移動 終端 計算機 存儲 介質 | ||
本申請提供一種跨語言詞嵌入的方法、移動終端和計算機存儲介質,該方法包括:將目標語言和源語言分別嵌入單語言詞嵌入模型學習目標語言的第一詞嵌入表征和源語言的第二詞嵌入表征;基于中間域采用對抗訓練學習目標語言和源語言之間的線性映射;根據自我學習的方法對線性映射進行微調。通過對不同的語言利用學習各自的詞嵌入,在沒有兩個語言間的詞級別翻譯的情況下,利用對抗訓練學習兩個語言間的線性映射,使得在線性映射后不同語言間具有相同語義的詞相互靠近,引入中間域使兩種語言映射到中間語言,讓中間語言逐步靠近目標語言,形成一個域流,從而將距離較遠的源語言和目標語言平滑地連接起來,從而提高無監督模型在不相似語言間的魯棒性。
技術領域
本申請涉及深度學習技術領域,具體涉及一種跨語言詞嵌入的方法、移動終端和計算機存儲介質。
背景技術
近年來,由于網絡上不同語言之間信息不平衡而產生的數字語言鴻溝已經越來越受到學術界的關注。跨語言的文本表征是減小這一鴻溝的重要方法。此外,跨語言的文本表征還是自然語言處理任務進行遷移學習的一個重要工具,而跨語言的詞嵌入是跨語言文本表征的基礎。
早年Mikolov等學者發現對不同的語言,利用相同的單語言詞嵌入模型學到的詞向量空間會有近似同構的特征,因此后來的學者都利用線性映射來表達不同語言詞向量之間的關系。傳統的跨語言詞嵌入利用詞級別的翻譯作為監督,以此來學習不同語言詞向量間的映射關系。而近年來學者們提出了一系列無監督的跨語言詞嵌入模型,通過對抗訓練來學習語言間的線性映射。在沒有任何監督數據的情況下,無監督模型仍能取得較好的結果,有些情況下甚至已經超過有監督的模型。
本申請的發明人在長期研發中發現,無監督模型的最大缺點是魯棒性不強,極易受初始點的影響,在一些不相似的語言間表現不佳。但是近年來的研究者們只專注于提升系統的準確率,尤其是在一些相似的語言間的表現,而因為相似的語言之間差異較小,這個任務往往是比較容易的。而在不相似的語言間,現有模型幾乎魯棒性都不強,非常容易失敗,不能學出一個可靠的線性映射。
發明內容
本申請提供一種跨語言詞嵌入的方法、移動終端和計算機存儲介質,以解決現有技術中無監督模型在不相似語言間的魯棒性不強的問題。
為解決上述技術問題,本申請采用的一個技術方案是:提供一種無監督魯棒跨語言詞嵌入的方法,所述方法包括:
將目標語言和源語言分別嵌入單語言詞嵌入模型學習目標語言的第一詞嵌入表征和源語言的第二詞嵌入表征;
基于中間域采用對抗訓練學習所述目標語言和所述源語言之間的線性映射;
根據自我學習的方法對所述線性映射進行微調。
為解決上述技術問題,本申請采用的另一個技術方案是:提供一種移動終端,所述移動終端包括相互耦接的處理器和存儲器,所述存儲器用于存儲計算機程序,所述處理器用于加載所述計算機程序并執行。
為解決上述技術問題,本申請采用的又一個技術方案是:提供一種計算機存儲介質,其上存有計算機程序,所述計算機程序用于實現上述實施方式中任一項方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于香港中文大學(深圳),未經香港中文大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011175684.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能防作弊動態檢測系統
- 下一篇:一種用于沉浸式內容的交互方法和系統





