[發明專利]一種研報正文的文本分類方法在審
| 申請號: | 201910949643.3 | 申請日: | 2019-10-08 |
| 公開(公告)號: | CN110717044A | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 張發恩;戴輝輝;龔才春 | 申請(專利權)人: | 創新奇智(南京)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/205;G06N3/08 |
| 代理公司: | 44502 廣州鼎賢知識產權代理有限公司 | 代理人: | 丁雨燕 |
| 地址: | 210046 江蘇省南京市經濟*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練模型 標注 樣本 準確度 機器學習 降噪處理 內容提取 文本分類 文本分析 分類 文本 | ||
1.一種研報正文的文本分類方法,其特征在于過程為:
a、收集一定數量的研報,對收集的研報段落進行標注形成樣本;
b、將標注好的樣本交給機器學習框架進行訓練、從而得到綜合訓練模型;
c、最后將需要識別的原始研報文件經過內容提取、文本降噪處理后,由綜合訓練模型完成對研報內容的提取分類。
2.根據權利要求1所述的研報正文的文本分類方法,其特征在于:a中,對收集的研報段落通過手工進行標注。
3.根據權利要求1所述的研報正文的文本分類方法,其特征在于:b中,綜合訓練模型包括若干個神經網絡訓練模型,神經網絡訓練模型包括FastText、LSTM、TextCnn的一種或多種。
4.根據權利要求1所述的研報正文的文本分類方法,其特征在于:c中,通過文本解析工具將需要識別的原始研報文件的內容提取出來,文本解析工具為pdf解析工具。
5.根據權利要求4所述的研報正文的文本分類方法,其特征在于:降噪處理包括文本文字格式統一、標點符號全角半角統一、文本查漏補缺、灰度處理的一種或多種。
6.根據權利要求5所述的研報正文的文本分類方法,其特征在于:綜合訓練模型通過文章段落規則對需要識別的原始研報文件進行段落提取和分類,文章段落規則為按照段落內容將段落分成若干個子內容,子內容包括摘要、核心觀點、客觀論述、盈利預測或風險提示的一種或多種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新奇智(南京)科技有限公司,未經創新奇智(南京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910949643.3/1.html,轉載請聲明來源鉆瓜專利網。





