[發明專利]中文詞向量處理方法及其系統有效
| 申請號: | 201910074889.0 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109902292B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 孟亞磊;劉繼明;劉松;陳浮;金蘭 | 申請(專利權)人: | 網經科技(蘇州)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 王玉國 |
| 地址: | 215021 江蘇省蘇州市工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文詞 向量 處理 方法 及其 系統 | ||
本發明公開了中文詞向量處理方法及系統,首先,對訓練語料分詞,得到待訓練向量的詞列表;然后,對每個待訓練詞語,確定其對應的n元字根及其代號表示形式,n元字根是詞包含的連續n個字根;再按照設定的維度參數,對各詞以及各n元字根的語義向量進行初始化;根據分詞后的語料、當前各詞向量及n元字根向量,對詞向量和字根向量進行訓練,完成指定輪次訓練后結束。結合漢字字形構成的特點,選擇了字根作為基本單元,將詞語表示為n元字根的形式;一方面字根本身具有較強的表意能力,另一方面中文詞的平均字根數更接近英文單詞的平均字母數,本發明能夠在更合適的粒度層次上刻畫詞語的語義,并且能化解未登錄詞的表征難題。
技術領域
本發明涉及一種中文詞向量處理方法及其系統,屬于自然語言處理技術領域。
背景技術
詞向量是計算語言學中的概念,其基本思路基于分布式假設:“一個詞的語義是由上下文的語義所確定的,如果兩個詞經常出現的上下文相似,那么這兩個詞的語義也相似”。在具體操作上詞向量是將單詞映射到一個語義空間當中,用該空間中的一個稠密、低維、連續的向量來表示單詞的語法及語義特征。目前詞向量已經作為基礎語義計算工具,在許多自然語言處理任務中廣泛運用。
目前,主流詞向量訓練算法,都是針對英文的語料特點設計出來的。英文有一個重要特點是單詞由若干個字母組成,單詞之間有空格分開。而在中文語料中詞語之間沒有空格,而且絕大多數詞語長度在2~4字之間,平均長度遠遠小于英文單詞。因此在訓練中文詞向量時,首先需要對語料進行合理的分詞;而且Word2Vec、GloVe等主流詞向量訓練方法的在中文語料上生成的詞向量語義表征效果不佳。
當前,國內根據中文自身特點也提出了一些詞向量訓練方法,如字詞聯合的訓練方案、基于筆畫的訓練方案等。但需要指出的是,字、詞本身確實能表示語義,但粒度過大,而且難以應對未登錄詞。基本筆畫本身不能表征語義,而以此為基礎發展出的訓練方法雖然能有效應對未登錄詞的語義表示,但因為基本單元粒度過小導致詞的編碼過長,從而增加了運算復雜度,同時影響了詞向量的效果。
發明內容
本發明的目的是克服現有技術存在的不足,提供一種中文詞向量處理方法及其系統。
本發明的目的通過以下技術方案來實現:
中文詞向量處理方法,特點是:包括以下步驟:
1)對訓練語料分詞,得到待訓練向量的詞列表;
2)對每個待訓練詞語,確定其對應的n元字根及其代號表示形式,n元字根是詞包含的連續n個字根;
3)按照設定的維度參數,對各詞以及各n元字根的語義向量進行初始化;
4)根據分詞后的語料、當前各詞向量及n元字根向量,對詞向量和字根向量進行訓練,完成指定輪次訓練后結束。
進一步地,上述的中文詞向量處理方法,其中,步驟1),以分詞方法或工具對語料進行分詞,所述分詞方法為基于詞典的最大匹配方法、全切分路徑選擇方法、基于字序列標注的方法或基于轉移的分詞方法,所述分詞工具為開源工具或閉源分詞工具。
進一步地,上述的中文詞向量處理方法,其中,步驟1),將語料中的一系列句子從漢字序列切分為詞序列,經統計得到語料中出現過的詞構成的詞表,對訓練語料分詞后得到的詞列表進行過濾,按照停用詞表去除不含實際意義的虛詞、標點等,或者設置一個閾值th去除出現頻次低的罕見詞。
進一步地,上述的中文詞向量處理方法,其中,步驟2),以n元字根作為詞的表示方式,字根是由若干筆劃交叉連接而形成的相對不變的結構,字根具有特定的語義信息,既是字形構成的基本單元,也可作為表達語義的基本元素。
進一步地,上述的中文詞向量處理方法,其中,步驟3),詞向量的維度根據語料規模、詞匯量、表義需求、空間開銷確定,對各詞以及各n元字根的語義向量采用隨機初始化或按指定概率分布的方式分配初始值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網經科技(蘇州)有限公司,未經網經科技(蘇州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910074889.0/2.html,轉載請聲明來源鉆瓜專利網。





