[發明專利]詞向量處理方法及裝置有效
| 申請號: | 201710337594.9 | 申請日: | 2017-05-15 |
| 公開(公告)號: | CN108874765B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 曹紹升;周俊;李小龍 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/232;G06N3/04;G06N3/08 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 王戈 |
| 地址: | 開曼群島大開曼島喬治鎮醫院*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 處理 方法 裝置 | ||
本申請實施例公開了詞向量處理方法及裝置。所述方法包括:對語料分詞得到各詞;確定所述各詞對應的各n元注音字符,所述n元注音字符表征其對應的詞的連續n個注音字符;建立并初始化所述各詞的詞向量,以及所述各詞對應的各n元注音字符的注音字符向量;根據所述詞向量、所述注音字符向量,以及分詞后的所述語料,對所述詞向量和所述注音字符向量進行訓練。利用本申請實施例,可以實現通過詞對應的n元注音字符更精細地表現該詞的特征,進而有利于提高中文詞的詞向量的準確度,實用效果較好。
技術領域
本申請涉及計算機軟件技術領域,尤其涉及詞向量處理方法及裝置。
背景技術
如今的自然語言處理的解決方案,大都采用基于神經網絡的架構,而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量,該向量表征了該詞的語義信息。
在現有技術中,常見的用于生成詞向量的算法是專門針對英文設計的。比如,谷歌公司的單詞向量算法、臉書公司的n元字符算法、微軟公司的深度神經網絡算法等。
但是,現有技術的這些算法或者無法用于中文,或者雖能用于中文,但是,所生成中文詞的詞向量的實用效果較差。
發明內容
本申請實施例提供詞向量處理方法及裝置,用以解決現有技術中用于生成詞向量的算法或者無法用于中文,或者雖能用于中文,但是,所生成中文詞的詞向量的實用效果較差的問題。
為解決上述技術問題,本申請實施例是這樣實現的:
本申請實施例提供的一種詞向量處理方法,包括:
對語料分詞得到各詞;
確定所述各詞對應的各n元注音字符,所述n元注音字符表征其對應的詞的連續n個注音字符;
建立并初始化所述各詞的詞向量,以及所述各詞對應的各n元注音字符的注音字符向量;
根據所述詞向量、所述注音字符向量,以及分詞后的所述語料,對所述詞向量和所述注音字符向量進行訓練。
本申請實施例提供的一種詞向量處理裝置,包括:
分詞模塊,對語料分詞得到各詞;
確定模塊,確定所述各詞對應的各n元注音字符,所述n元注音字符表征其對應的詞的連續n個注音字符;
初始化模塊,建立并初始化所述各詞的詞向量,以及所述各詞對應的各n元注音字符的注音字符向量;
訓練模塊,根據所述詞向量、所述注音字符向量,以及分詞后的所述語料,對所述詞向量和所述注音字符向量進行訓練。
本申請實施例提供的另一種詞向量處理方法,包括:
步驟1,對語料分詞,并建立通過所述分詞得到的各詞構成的詞匯表,其中,所述各詞不包括在所述語料中出現次數少于設定次數的詞;跳轉步驟2;
步驟2,根據所述詞匯表,建立n元注音字符映射表,所述映射表包含所述各詞與n元注音字符之間的映射關系,所述n元注音字符表征其映射的詞的連續n個注音字符;跳轉步驟3;
步驟3,根據所述n元注音字符映射表,建立并初始化所述各詞的詞向量,以及所述各詞映射的各n元注音字符的注音字符向量;跳轉步驟4;
步驟4,遍歷分詞后的所述語料,分別將遍歷到的每個詞作為當前詞w并對當前詞w執行步驟5,若遍歷完成則結束,否則繼續遍歷;
步驟5,以當前詞w為中心,向兩側分別滑動至多k個詞建立窗口,遍歷所述窗口中除當前詞w以外的所有詞,分別將遍歷到的每個詞作為當前詞w的當前上下文詞c并對當前上下文詞c執行步驟6,若遍歷完成則繼續步驟4的執行,否則繼續遍歷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710337594.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子樂譜編輯系統
- 下一篇:用于數字助理服務中的語音匹配的方法和系統





