[發明專利]一種基于詞向量的中文年報標題分類方法在審
| 申請號: | 202010527929.5 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111666378A | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 梁倬騫;潘定;曹志鵬 | 申請(專利權)人: | 暨南大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 深圳科灣知識產權代理事務所(普通合伙) 44585 | 代理人: | 鐘斌 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 中文 年報 標題 分類 方法 | ||
1.一種基于詞向量的中文年報標題分類方法,具體步驟為:
步驟1、輸入企業年報數據集;
步驟2、對數據進行人工標注,并劃分訓練集;
步驟3、對數據進行預處理,并訓練Word2vector模型;
步驟4、待抽取標題的年報通過Word2vector模型進行計算特征向量;
步驟5、通過分類抽取得到目錄。
2.根據權利要求1所述的一種基于詞向量的中文年報標題分類方法,其特征在于:步驟3預處理具體為分詞和去掉停用詞。
3.根據權利要求1所述的一種基于詞向量的中文年報標題分類方法,其特征在于:步驟3中Word2vector模型采用CBOW模型,具體步驟為:
A、定窗口大小k,將窗口內除中心詞wt外的所有詞語分別生成獨熱向量;
B、將輸入權重矩陣與獨熱向量相乘,得到每個詞語的輸入向量;
C、計算這2k個上下文詞語詞向量的平均值;
D、通過輸出詞向量矩陣乘以上下文詞向量得到一個分數向量;
E、利用函數將分數向量轉化為概率分布;
F、利用交叉熵作為損失函數,通過隨機梯度下降算法優化輸入權重矩陣和輸出詞向量矩陣。
4.根據權利要求3所述的一種基于詞向量的中文年報標題分類方法,其特征在于:步驟A中獨熱向量可通過對詞語的詞典序進行獨熱編碼生成。
5.根據權利要求3所述的一種基于詞向量的中文年報標題分類方法,其特征在于:步驟E中所述函數具體為softmax函數。
6.根據權利要求3所述的一種基于詞向量的中文年報標題分類方法,其特征在于:步驟C中所述平均值用以表示上下文詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于暨南大學,未經暨南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010527929.5/1.html,轉載請聲明來源鉆瓜專利網。





