[發明專利]詞向量生成方法和裝置有效
| 申請號: | 201610095987.9 | 申請日: | 2016-02-19 |
| 公開(公告)號: | CN107102981B | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 林全郴 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 生成 方法 裝置 | ||
1.一種詞向量生成方法,所述方法包括:
獲取根據舊語料庫生成詞向量時所生成的已訓練哈夫曼樹;
獲取相對于所述舊語料庫的新增語料庫;
將所述新增語料庫中的語料進行分詞處理,獲得相應的新增語料詞集合;
將所述新增語料詞集合中的詞按照詞頻從高到低的順序排序,獲得新增語料詞序列;
對于所述新增語料詞序列中不存在于舊語料庫的新詞,根據相應新詞在新增語料詞序列中的位置,從已訓練哈夫曼樹中選擇哈夫曼路徑;
根據選擇的哈夫曼路徑生成所述新增語料詞序列中詞的詞向量。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當所述新增語料庫中的句子數小于預設句子數閾值或者所述新增語料詞集合中的詞數量小于預設詞數量閾值時,從所述已訓練哈夫曼樹中隨機為新增語料詞集合中的詞選擇哈夫曼路徑。
3.根據權利要求1所述的方法,其特征在于,所述對于所述新增語料詞序列中不存在于舊語料庫的新詞,根據相應新詞在新增語料詞序列中的位置,從已訓練哈夫曼樹中選擇哈夫曼路徑,包括:
將舊語料庫對應的舊語料詞集合中的詞按照詞頻從高到低的順序排序,獲得舊語料詞序列;
根據所述新增語料詞序列中詞的位置在所述舊語料詞序列中查找相同或相似位置處的詞;
從所述已訓練哈夫曼樹中選擇查找到的詞所對應的哈夫曼路徑。
4.根據權利要求3所述的方法,其特征在于,所述根據所述新增語料詞序列中詞的位置在所述舊語料詞序列中查找相同或相似位置處的詞,包括:
將所述舊語料詞序列中的詞按照相應的詞頻依次投影到固定長度單位;
將所述新增語料詞序列中的詞按照相應的詞頻依次投影到所述固定長度單位;
在所述固定長度單位上查找與所述新增語料詞序列中的詞所投影的區段長度重疊度最大的屬于所述舊語料詞序列的詞。
5.根據權利要求1所述的方法,其特征在于,所述方法還包括:
判斷所述新增語料詞集合中當前處理的詞是否屬于舊語料庫對應的舊語料詞集合;
若是,則直接從所述已訓練哈夫曼樹中選擇當前處理的詞所對應的哈夫曼路徑,并執行所述根據選擇的哈夫曼路徑生成所述新增語料詞序列中詞的詞向量的步驟;
若否,則執行所述對于所述新增語料詞序列中不存在于舊語料庫的新詞,根據相應新詞在新增語料詞序列中的位置,從已訓練哈夫曼樹中選擇哈夫曼路徑的步驟。
6.根據權利要求1所述的方法,其特征在于,所述根據選擇的哈夫曼路徑生成所述新增語料詞序列中詞的詞向量,包括:
獲取所述新增語料詞集合中當前處理的詞相對于新增語料庫的上下文;
將所述上下文的詞向量累加獲得累加向量;
根據所述累加向量以及所述選擇的哈夫曼路徑獲得當前處理的詞相對于所述上下文的條件概率函數;
根據所述條件概率函數獲得目標函數;
對所述目標函數進行優化,以更新當前處理的詞的詞向量以及所述上下文的詞向量。
7.一種詞向量生成裝置,其特征在于,所述裝置包括:
已訓練哈夫曼樹獲取模塊,用于獲取根據舊語料庫生成詞向量時所生成的已訓練哈夫曼樹;
新增語料庫獲取模塊,用于獲取相對于所述舊語料庫的新增語料庫;
分詞模塊,用于將所述新增語料庫中的語料進行分詞處理,獲得相應的新增語料詞集合;
新增語料詞排序模塊,用于將所述新增語料詞集合中的詞按照詞頻從高到低的順序排序,獲得新增語料詞序列;
哈夫曼路徑選擇模塊,用于對于所述新增語料詞序列中不存在于舊語料庫的新詞,根據相應新詞在新增語料詞序列中的位置,從已訓練哈夫曼樹中選擇哈夫曼路徑;
詞向量生成模塊,用于根據選擇的哈夫曼路徑生成所述新增語料詞序列中詞的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610095987.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:情感信息的提取方法及裝置
- 下一篇:對語音進行翻譯的方法和裝置





