[發明專利]一種基于自然語言的企業新聞動態監測方法在審
| 申請號: | 202011010471.2 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112149422A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 呂爽;肖友;江麗娜;苗俊躍;何理;陳瓊妮 | 申請(專利權)人: | 中冶賽迪工程技術股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/258;G06F16/951;G06K9/62 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400013*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 企業 新聞動態 監測 方法 | ||
1.一種基于自然語言的企業新聞動態監測方法,其特征在于:該方法包括以下步驟:
步驟1:構建數據庫;爬取主流新聞網站實時數據構建新聞數據庫,通過工商信息爬取和人工添加的方法構建企業數據庫,通過人工梳理的方法構建業務動態關鍵字數據庫;
步驟2:訓練命名實體識別NER模型;采用成熟的線性鏈條件隨機場CRF方法和中文語料庫訓練命名實體識別NER模型;
對新聞數據庫中每一條新聞,進行步驟3-8操作:
步驟3:讀取新聞數據并進行數據清洗;按照預定方法從新聞數據庫中讀取新聞標題、新聞源文本、新聞發布時間的維度數據,并對新聞數據清洗,去除無效字符;
步驟4:從新聞標題中提取企業實體和業務動態信息;利用命名實體識別和企業名稱匹配的方法從新聞標題文本中提取企業實體,利用文本匹配的方法提取業務動態信息,若標題中可提取到實體,則跳過步驟5,否則轉到步驟5;
步驟5:從新聞正文中提取企業實體;利用命名實體識別的方法從新聞正文文本中提取企業實體;
步驟6:篩選正文企業實體;根據新聞正文中出現企業實體次數的數量和排名信息,篩除關聯性不大的企業實體,保留主要企業實體作為該新聞識別結果;
步驟7:根據篩選后的企業實體從新聞正文中提取相應的業務動態信息;查找正文中出現的業務動態關鍵字,計算各業務動態關鍵字與企業實體的空間距離,按照距離大小提取業務動態信息;
步驟8:將結果寫入數據庫;將步驟6中獲得的主要企業實體、新聞數據、步驟4和步驟7中獲得的涉及業務動態維度,按照預定關聯方法寫入數據庫進行保存,以企業為主體建立企業、新聞、業務動態維度的關聯關系。
2.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟1中,構建數據庫步驟中的企業數據庫信息,包括企業基本信息、投融資信息、經營信息、司法欠稅信息和產品技術信息的數據維度;動態關鍵字數據庫包括多級關鍵字。
3.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟4中,若標題中提取到企業實體,則有理由認為新聞明確與該企業實體相關聯,省略從新聞正文中再查找篩選企業實體的步驟。
4.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟4-6中,判斷新聞數據是否與企業相關時,一方面通過實體識別和名稱匹配的方法識別出新聞中出現的企業,另一方面通過各企業實體出現的次數、排名和位置信息構建篩選模型,去除關聯性不強的企業,保留新聞涉及的主要企業實體;
具體分為以下步驟:
S01:判斷新聞標題中是否出現企業實體;新聞標題采用文本匹配和實體識別相結合的方法進行判斷;對前述企業數據庫中的企業名稱,包括全稱和簡稱,按文本匹配的方法在新聞標題中查找是否出現企業名稱,同時利用NER模型提取標題實體后查結合企業數據庫判斷該實體是否屬于企業,二者結合得到新聞標題中出現的企業實體列表Y*;若Y*不為空集,則完成企業識別,否則轉到S02;
S02:判斷新聞正文中是否出現企業實體;利用前述NER模型對新聞正文文本進行實體識別,識別結果進行去重后得到實體名稱列表Y=(Y1,Y2,Y3...Ym),對Y中每一個實體Yi,在前述企業數據庫中查詢是否存在該實體,若存在,則表明該實體屬于企業;若不存在,則丟棄該實體,得到新聞正文中出現的企業實體列表Y'=(Y1,Y2,Y3...Yn);
S03:篩選企業實體;根據新聞正文中出現企業實體列表Y'中各實體次數的數量和排名信息,篩除關聯性不大的企業實體,具體的篩選邏輯及維度可根據模型實際運行效果進行調整,保留主要企業實體作為該新聞識別結果。
5.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟4和步驟7中,判斷新聞數據是否與業務動態維度相關時,一方面通過業務關鍵字匹配的方法識別到業務動態信息,另一方面,通過業務關鍵字與主要企業實體的空間距離對業務動態維度進行篩選,保留與企業關聯性較強的業務動態維度,其中關鍵字與企業實體的空間距離計算方法和閾值根據模型實際運行效果進行調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中冶賽迪工程技術股份有限公司,未經中冶賽迪工程技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011010471.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種射芯機及覆膜砂射芯機
- 下一篇:一種圓盤多功能運動參數試驗方法





