[發明專利]一種基于自然語言的企業新聞動態監測方法在審
| 申請號: | 202011010471.2 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112149422A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 呂爽;肖友;江麗娜;苗俊躍;何理;陳瓊妮 | 申請(專利權)人: | 中冶賽迪工程技術股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/258;G06F16/951;G06K9/62 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400013*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 企業 新聞動態 監測 方法 | ||
本發明涉及一種基于自然語言的企業新聞動態監測方法,屬于自然語言處理領域。該方法包括步驟:步驟1:構建數據庫;步驟2:訓練命名實體識別NER模型;步驟3:讀取新聞數據并進行數據清洗;步驟4:從新聞標題中提取企業實體和業務動態信息;步驟5:從新聞正文中提取企業實體;步驟6:篩選正文企業實體;步驟7:根據篩選后的企業實體從新聞正文中提取相應的業務動態信息;步驟8:將結果寫入數據庫,以企業為主體建立企業、新聞、業務動態維度的關聯關系。本發明可快速、大量、自動化的從網絡獲取新聞信息,實現企業的高效新聞動態監測;大幅度降低了無關信息對識別結果的干擾,具有較高的穩定性和準確率。
技術領域
本發明屬于在自然語言處理領域,涉及一種基于自然語言的企業新聞動態監測方法。
背景技術
隨著互聯網的普及,以及各類互聯網產品的推出,世界走入了信息爆炸時代,網上新聞成為了人們獲取信息的重要渠道。互聯網上每天都有大量的新聞產生,對于園區管理、招商、運營等需要快速把握企業動態的領域來說,如何從海量的新聞數據中提取到關注的企業動態信息一直是工作中的痛點和難點。
一般的企業新聞動態監測方法大多直接采用企業關鍵字匹配的辦法,直接通過搜索引擎等渠道搜索企業名稱,查找相關新聞。該方法門檻較低,在處理的企業新聞動態較少時能取得較好的效果,但在園區招商、管理等對信息處理數據量大、精準度要求較高的環境中,直接搜索不能快速實現對企業動態信息維度的分類,同時企業名稱關鍵字識別不準確,可能會識別出非企業實體的新聞,在數據量較大的情況下摻雜無效信息,降低了信息獲取效率和準確性。
發明內容
有鑒于此,本發明的目的在于提供一種基于自然語言的企業新聞動態監測方法。
為達到上述目的,本發明提供如下技術方案:
一種基于自然語言的企業新聞動態監測方法,該方法包括以下步驟:
步驟1:構建數據庫;爬取主流新聞網站實時數據構建新聞數據庫,通過工商信息爬取和人工添加等方法構建企業數據庫,通過人工梳理的方法構建業務動態關鍵字數據庫;
步驟2:訓練命名實體識別NER模型;采用成熟的線性鏈條件隨機場(ConditionalRandom Field,CRF)方法和中文語料庫訓練命名實體識別(Named Entity Recognition,NER)模型;
對新聞數據庫中每一條新聞,進行步驟3-8操作:
步驟3:讀取新聞數據并進行數據清洗;按照預定方法從新聞數據庫中讀取新聞標題、新聞源文本、新聞發布時間等維度數據,并對新聞數據清洗,去除無效字符;
步驟4:從新聞標題中提取企業實體和業務動態信息;利用命名實體識別和企業名稱匹配的方法從新聞標題文本中提取企業實體,利用文本匹配的方法提取業務動態信息,若標題中可提取到實體,則跳過步驟5,否則轉到步驟5;
步驟5:從新聞正文中提取企業實體;利用命名實體識別的方法從新聞正文文本中提取企業實體;
步驟6:篩選正文企業實體;根據新聞正文中出現企業實體次數的數量、排名等信息,篩除關聯性不大的企業實體,保留主要企業實體作為該新聞識別結果;
步驟7:根據篩選后的企業實體從新聞正文中提取相應的業務動態信息;查找正文中出現的業務動態關鍵字,計算各業務動態關鍵字與企業實體的空間距離,按照距離大小提取業務動態信息;
步驟8:將結果寫入數據庫;將步驟6中獲得的主要企業實體、新聞數據、步驟4和步驟7中獲得的涉及業務動態維度,按照預定關聯方法寫入數據庫進行保存,以企業為主體建立企業、新聞、業務動態維度的關聯關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中冶賽迪工程技術股份有限公司,未經中冶賽迪工程技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011010471.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種射芯機及覆膜砂射芯機
- 下一篇:一種圓盤多功能運動參數試驗方法





