日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于自然語言的企業新聞動態監測方法在審

專利信息
申請號: 202011010471.2 申請日: 2020-09-23
公開(公告)號: CN112149422A 公開(公告)日: 2020-12-29
發明(設計)人: 呂爽;肖友;江麗娜;苗俊躍;何理;陳瓊妮 申請(專利權)人: 中冶賽迪工程技術股份有限公司
主分類號: G06F40/295 分類號: G06F40/295;G06F40/258;G06F16/951;G06K9/62
代理公司: 北京同恒源知識產權代理有限公司 11275 代理人: 楊柳岸
地址: 400013*** 國省代碼: 重慶;50
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 自然語言 企業 新聞動態 監測 方法
【權利要求書】:

1.一種基于自然語言的企業新聞動態監測方法,其特征在于:該方法包括以下步驟:

步驟1:構建數據庫;爬取主流新聞網站實時數據構建新聞數據庫,通過工商信息爬取和人工添加的方法構建企業數據庫,通過人工梳理的方法構建業務動態關鍵字數據庫;

步驟2:訓練命名實體識別NER模型;采用成熟的線性鏈條件隨機場CRF方法和中文語料庫訓練命名實體識別NER模型;

對新聞數據庫中每一條新聞,進行步驟3-8操作:

步驟3:讀取新聞數據并進行數據清洗;按照預定方法從新聞數據庫中讀取新聞標題、新聞源文本、新聞發布時間的維度數據,并對新聞數據清洗,去除無效字符;

步驟4:從新聞標題中提取企業實體和業務動態信息;利用命名實體識別和企業名稱匹配的方法從新聞標題文本中提取企業實體,利用文本匹配的方法提取業務動態信息,若標題中可提取到實體,則跳過步驟5,否則轉到步驟5;

步驟5:從新聞正文中提取企業實體;利用命名實體識別的方法從新聞正文文本中提取企業實體;

步驟6:篩選正文企業實體;根據新聞正文中出現企業實體次數的數量和排名信息,篩除關聯性不大的企業實體,保留主要企業實體作為該新聞識別結果;

步驟7:根據篩選后的企業實體從新聞正文中提取相應的業務動態信息;查找正文中出現的業務動態關鍵字,計算各業務動態關鍵字與企業實體的空間距離,按照距離大小提取業務動態信息;

步驟8:將結果寫入數據庫;將步驟6中獲得的主要企業實體、新聞數據、步驟4和步驟7中獲得的涉及業務動態維度,按照預定關聯方法寫入數據庫進行保存,以企業為主體建立企業、新聞、業務動態維度的關聯關系。

2.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟1中,構建數據庫步驟中的企業數據庫信息,包括企業基本信息、投融資信息、經營信息、司法欠稅信息和產品技術信息的數據維度;動態關鍵字數據庫包括多級關鍵字。

3.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟4中,若標題中提取到企業實體,則有理由認為新聞明確與該企業實體相關聯,省略從新聞正文中再查找篩選企業實體的步驟。

4.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟4-6中,判斷新聞數據是否與企業相關時,一方面通過實體識別和名稱匹配的方法識別出新聞中出現的企業,另一方面通過各企業實體出現的次數、排名和位置信息構建篩選模型,去除關聯性不強的企業,保留新聞涉及的主要企業實體;

具體分為以下步驟:

S01:判斷新聞標題中是否出現企業實體;新聞標題采用文本匹配和實體識別相結合的方法進行判斷;對前述企業數據庫中的企業名稱,包括全稱和簡稱,按文本匹配的方法在新聞標題中查找是否出現企業名稱,同時利用NER模型提取標題實體后查結合企業數據庫判斷該實體是否屬于企業,二者結合得到新聞標題中出現的企業實體列表Y*;若Y*不為空集,則完成企業識別,否則轉到S02;

S02:判斷新聞正文中是否出現企業實體;利用前述NER模型對新聞正文文本進行實體識別,識別結果進行去重后得到實體名稱列表Y=(Y1,Y2,Y3...Ym),對Y中每一個實體Yi,在前述企業數據庫中查詢是否存在該實體,若存在,則表明該實體屬于企業;若不存在,則丟棄該實體,得到新聞正文中出現的企業實體列表Y'=(Y1,Y2,Y3...Yn);

S03:篩選企業實體;根據新聞正文中出現企業實體列表Y'中各實體次數的數量和排名信息,篩除關聯性不大的企業實體,具體的篩選邏輯及維度可根據模型實際運行效果進行調整,保留主要企業實體作為該新聞識別結果。

5.根據權利要求1所述的一種基于自然語言的企業新聞動態監測方法,其特征在于:所述步驟4和步驟7中,判斷新聞數據是否與業務動態維度相關時,一方面通過業務關鍵字匹配的方法識別到業務動態信息,另一方面,通過業務關鍵字與主要企業實體的空間距離對業務動態維度進行篩選,保留與企業關聯性較強的業務動態維度,其中關鍵字與企業實體的空間距離計算方法和閾值根據模型實際運行效果進行調整。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中冶賽迪工程技術股份有限公司,未經中冶賽迪工程技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011010471.2/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产在线一卡| 少妇自拍一区| 欧美一区二区三区三州| 久久两性视频| 亚洲欧洲一二三区| 国产jizz18女人高潮| 99riav3国产精品视频| 国产一区影院| 国产伦精品一区二区三区四区| 亚洲四区在线| 狠狠色丁香久久综合频道| 久久九九亚洲| 国产一级在线免费观看| 91精品美女| 中文乱码字幕永久永久电影| 国产精品综合一区二区三区| 在线国产精品一区| 少妇中文字幕乱码亚洲影视 | 亚洲精品一区中文字幕| 国产伦高清一区二区三区| 欧美日韩一区在线视频| 国产精品一区二区免费| 午夜国内精品a一区二区桃色| 国产日韩精品久久| 久久免费精品国产| 狠狠色丁香久久婷婷综合丁香| 国产69精品福利视频| 久久影院一区二区| 国产视频一区二区视频| 国产精品一区二区不卡| 国产精品一二二区| 国产伦精品一区二区三区免费观看| 狠狠色综合久久婷婷色天使| xxxx18hd护士hd护士| 午夜片在线| 满春阁精品av在线导航| 亚日韩精品| 91一区在线| 美女脱免费看直播| 日本一区午夜艳熟免费| 国产电影精品一区| 日本三级香港三级网站| 欧美日韩三区| 欧美一区二区三区日本| 精品国产乱码久久久久久免费| 国产麻豆91视频| 天天干狠狠插| 国产一卡在线| 99国产精品久久久久老师| 自拍偷在线精品自拍偷写真图片| 李采潭无删减版大尺度| 精品国产乱码久久久久久老虎| 国产三级在线视频一区二区三区 | 国产一卡二卡在线播放 | 福利片午夜| 性色av色香蕉一区二区三区| 理论片高清免费理伦片| 97人人模人人爽视频一区二区| 国产精品欧美一区二区三区奶水 | 国产一区二区在线免费| 久久不卡精品| 国产精品亚洲第一区| 国产伦精品一区二区三区免| 99精品区| 欧美激情精品久久久久久免费| 国产极品美女高潮无套久久久| 欧美精品一区二区三区四区在线| 九九精品久久| 国产日本一区二区三区| 午夜黄色一级电影| 久久久久久综合网| 国产高清不卡一区| 国产日韩一区二区在线| 国产精品美女久久久另类人妖| 欧美精品在线视频观看| 国产一二区视频| 久久激情综合网| 国产精品视频久久| 91夜夜夜| 国产69精品久久久久久野外| 狠狠躁狠狠躁视频专区| 亚洲精品老司机|