[發明專利]一種基于字和詞兩個層面特征信息的文本分類方法在審
| 申請號: | 201710825546.4 | 申請日: | 2017-09-14 |
| 公開(公告)號: | CN107656990A | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 杜婷婷;常會友 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 兩個 層面 特征 信息 文本 分類 方法 | ||
1.一種基于字和詞兩個層面特征信息的文本分類方法,其特征在于,所述方法包括以下步驟:
A、利用神經網絡對字詞進行聯合預訓練,得到詞語和字的初始化向量;
B、將詞語的詞向量連接成矩陣,同時將字向量連接成矩陣,利用卷積核對詞向量連接成矩陣和字向量連接成矩陣分別進行卷積操作提取對應的局部特征;
C、利用最大池化操作提取步驟B中得到的詞語層面局部特征的最優值和字層面局部特征的最優值;
D、將步驟C中得到的詞語層面特征向量與字層面特征連接,形成短文本的特征向量表示;
E、利用全連接神經網絡對短文本進行分類,使用隨機梯度下降算法對模型參數進行訓練,得到分類模型和調整之后的字向量和詞向量;
F、將需要分類的新的短文本輸入模型進行分類,得到分類結果。
2.根據權利要求1所述的方法,其特征在于,步驟A的具體實現方式為:
隨機初始化預訓練語料文本中詞語和字的向量,詞語和字向量的維度相同;將中心詞表示成其上下文詞語的詞向量和這些詞語中漢字的字向量的加權平均,基于word2vec的skip-gram模型對上下文窗口中的詞語及其組成漢字進行訓練,得到各個詞語和字的向量表示。
3.根據權利要求1所述的方法,其特征在于:步驟B中,將短文本根據其中詞語的預訓練詞向量連接成矩陣,矩陣的大小是固定的,通過對訓練文本的統計,得到文本的最大詞長度,將不足這個長度的文本利用填充向量填充至同樣大小。
4.根據權利要求1所述的方法,其特征在于:步驟B中,將短文本根據其中字的預訓練字向量連接成矩陣,矩陣的大小是固定的,通過對訓練文本的統計,得到文本的最大字長度,將不足這個長度的文本利用填充向量填充至同樣大小。
5.根據權利要求1所述的方法,其特征在于:步驟B中,對詞向量連接成矩陣和字向量連接成矩陣分別進行卷積操作的卷積核對應的區域大小相同,即當對詞向量連接成矩陣進行卷積操作的是一個卷積n個詞向量的卷積核,則對字向量連接成矩陣進行卷積操作的是一個卷積該n個詞語中字向量的卷積核。
6.根據權利要求3所述的方法,其特征在于:對于未在預訓練語料中出現的詞語,根據該詞語中字的字向量進行初始化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710825546.4/1.html,轉載請聲明來源鉆瓜專利網。





