[發明專利]一種基于詞向量的中文年報標題分類方法在審
| 申請號: | 202010527929.5 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111666378A | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 梁倬騫;潘定;曹志鵬 | 申請(專利權)人: | 暨南大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 深圳科灣知識產權代理事務所(普通合伙) 44585 | 代理人: | 鐘斌 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 中文 年報 標題 分類 方法 | ||
發明公開了一種基于詞向量的中文年報標題分類方法,具體步驟為:步驟1、輸入企業年報數據集,步驟2、對數據進行人工標注,并劃分訓練集,步驟3、對數據進行預處理,并訓練Word2vector模型,步驟4、待抽取標題的年報通過Word2vector模型進行計算特征向量,步驟5、通過分類抽取得到目錄,步驟3預處理具體為分詞和去掉停用詞,步驟3中Word2vector模型采用CBOW模型,本發明涉及標題分類技術領域。該基于詞向量的中文年報標題分類方法,解決了傳統的人工提取方式需要耗費巨大的人力和時間成本,而詞向量的抽取方法效果差,準確力低的問題。
技術領域
發明涉及標題分類技術領域,具體為一種基于詞向量的中文年報標題分類方法。
背景技術
隨著網絡技術的發展,以及互聯網的普及,人們進入到了信息時代。在這個時代里,各種各樣的信息充斥著人們的生活,人們在每天的工作學習中,都要面對數不勝數的新聞、微博、報告即使這樣,信息還是在爆炸式地增長,因此對這些海量的數據進行信息抽取顯得十分必要。
在金融領域,每天也同樣會產生大量的文本數據,其中就包括企業年報。年報是企業的法定義務,企業通過年報向社會提供企業的基本信息,有利于社會公眾和交易相對人了解企業,并讓國家相關管理部門可以及時掌握企業的狀況。企業年報是投資者重要的參考材料,抽取其中的重要信息十分關鍵,可以對市場、企業、投資方產生重要影響。各企業的年報雖然在格式上有相似的地方,但也存在些許差異,這給我們對企業年報進行研究帶來了困難。因此,如果能對企業年報的標題進行抽取,有利于我們了解整篇年報的文章結構,對于將企業年報規范化也有著重要意義,傳統的人工提取方式需要耗費巨大的人力和時間成本,而詞向量的抽取方法效果差,準確力低。
發明內容
針對現有技術的不足,發明提供了一種基于詞向量的中文年報標題分類方法,解決了傳統的人工提取方式需要耗費巨大的人力和時間成本,而詞向量的抽取方法效果差,準確力低的問題。
為實現以上目的,發明通過以下技術方案予以實現:一種基于詞向量的中文年報標題分類方法,具體步驟為:
步驟1、輸入企業年報數據集;
步驟2、對數據進行人工標注,并劃分訓練集;
步驟3、對數據進行預處理,并訓練Word2vector模型;
步驟4、待抽取標題的年報通過Word2vector模型進行計算特征向量;
步驟5、通過分類抽取得到目錄。
優選的,步驟3預處理具體為分詞和去掉停用詞。
優選的,步驟3中Word2vector模型采用CBOW模型,具體步驟為:
A、定窗口大小k,將窗口內除中心詞wt外的所有詞語分別生成獨熱向量;
B、將輸入權重矩陣與獨熱向量相乘,得到每個詞語的輸入向量;
C、計算這2k個上下文詞語詞向量的平均值;
D、通過輸出詞向量矩陣乘以上下文詞向量得到一個分數向量;
E、利用函數將分數向量轉化為概率分布;
F、利用交叉熵作為損失函數,通過隨機梯度下降算法優化輸入權重矩陣和輸出詞向量矩陣。
優選的,步驟A中獨熱向量可通過對詞語的詞典序進行獨熱編碼生成。
優選的,步驟E中所述函數具體為softmax函數。
優選的,步驟C中所述平均值用以表示上下文詞向量。
有益效果
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于暨南大學,未經暨南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010527929.5/2.html,轉載請聲明來源鉆瓜專利網。





