[發明專利]詞向量的生成方法、裝置和系統有效
| 申請號: | 201811102483.0 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN110929508B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 肖非;曹紹升 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 褚敏;宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 生成 方法 裝置 系統 | ||
1.一種詞向量的生成方法,包括:
獲取語句中的至少一個詞語;
提取所述詞語的至少一個筆畫的筆畫信息;
基于所述筆畫的筆畫信息,生成所述詞語的筆畫特征向量,其中,所述筆畫特征向量表示所述詞語的局部特征信息;
基于所述詞語的筆畫特征向量,通過詞向量生成模型,確定所述詞語的詞向量,其中,所述詞向量生成模型用于根據詞語的筆畫特征向量生成對應的詞向量;
其中,在獲取語句中的至少一個詞語之前,所述方法還包括:獲取所述詞向量生成模型,其中,獲取所述詞向量生成模型,包括:獲取訓練數據和預設的神經網絡模型;獲取所述訓練數據中的正樣本詞語對應的上下文詞語;基于所述上下文詞語得到所述正樣本詞語對應的第一詞向量;將所述正樣本詞語的筆畫特征向量輸入至所述神經網絡模型的全連接層,得到所述神經網絡模型輸出的第一預測結果,其中,所述第一預測結果用于表示所述神經網絡模型預測的所述正樣本詞語對應的第二詞向量;將所述訓練數據中的負樣本詞語的筆畫特征向量輸入至所述神經網絡模型的全連接層,得到所述神經網絡模型輸出的第二預測結果,其中,所述第二預測結果用于表示所述神經網絡模型預測的所述負樣本詞語對應的第三詞向量;基于所述第一詞向量、所述第二詞向量和所述第三詞向量構造所述神經網絡模型的損失函數;基于所述損失函數的最小值,得到所述神經網絡參數;基于所述神經網絡參數確定所述詞向量生成模型。
2.根據權利要求1所述的方法,其中,所述筆畫信息包括所述詞語對應的n元筆畫,提取所述詞語的至少一個筆畫的筆畫信息,包括:
獲取預先構建的n元筆畫映射表,其中,所述n元筆畫映射表用于表示詞語與n元筆畫的對應關系;
從所述n元筆畫映射表中查找所述詞語對應的n元筆畫。
3.根據權利要求2所述的方法,其中,在獲取預先構建的n元筆畫映射表之前,所述方法還包括:構建所述n元筆畫映射表,其中,構建所述n元筆畫映射表,包括:
將所述詞語拆分成多個按照順序排列的筆畫元素;
從所述筆畫元素中提取連續的n個相連的筆畫元素;
確定所述連續的n個相連的筆畫元素為所述詞語的n元筆畫。
4.根據權利要求2所述的方法,其中,基于筆畫的筆畫信息,生成所述詞語的筆畫特征向量,包括:
確定所述n元筆畫對應的編號,其中,每個所述n元筆畫具有對應的編號;
在預設維度的向量中,將所述編號對應位置的元素與其他位置的元素相反設置,得到所述詞語的筆畫特征向量,其中,所述筆畫特征向量中的每個元素為0或1。
5.根據權利要求1所述的方法,其中,獲取訓練數據,包括:
獲取多個候選樣本詞語中,每個所述候選樣本詞語出現的次數;
確定出現的次數大于或等于預設次數的所述候選樣本詞語構成所述訓練數據。
6.根據權利要求1所述的方法,其中,獲取所述訓練數據中的正樣本詞語對應的上下文詞語,包括:
以所述正樣本詞語為中心向兩側滑動預設數量的詞語,得到所述樣本詞語對應的上下文詞語。
7.根據權利要求1所述的方法,其中,基于所述上下文詞語得到所述正樣本詞語對應的第一詞向量,包括:
獲取所述上下文詞語對應的n元筆畫;
將所述上下文詞語對應的n元筆畫輸入至所述神經網絡模型,得到所述神經網絡模型的特征層輸出的所述第一詞向量,其中,所述第一詞向量與所述神經網絡參數相關。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811102483.0/1.html,轉載請聲明來源鉆瓜專利網。





