[發明專利]一種基于關鍵詞提取分析的企業關系計算方法及系統有效
| 申請號: | 201710354039.7 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN107341142B | 公開(公告)日: | 2020-08-21 |
| 發明(設計)人: | 辛柯俊 | 申請(專利權)人: | 辛柯俊 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 北京中企鴻陽知識產權代理事務所(普通合伙) 11487 | 代理人: | 郭鴻雁 |
| 地址: | 210049 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 提取 分析 企業 關系 計算方法 系統 | ||
1.一種基于關鍵詞提取分析的企業關系計算方法,其特征在于,包括如下步驟:
步驟S1,獲取文本信息T1,并獲取所述文本信息包含的段落數;
步驟S2,計算文本信息T1中每個段落的字數Cn以及所有段落的字數平均值CV,提取出Cn/CV大于等于某個閾值k的段落文字,組裝成為一個新的文字段落T2;
步驟S3,設定詞典,并設置所述詞典中的詞語為引導詞,根據設置的引導詞對所述文本信息進行一次搜索,將文本中的語句在此摘錄出一個新的文本T3;
步驟S4,對所述T1、T2和T3分別提取關鍵短語,得到L1、L2和L3三個短語序列;
步驟S5,將L1、L2和L3分別設置對應的權重值a、b和c,從三個短語序列中檢查出重復詞語,根據重復詞語出現的次數與所在序列的權重值的乘積作為得分值,不重復的詞語的得分值即為所在序列的權重值,其中,根據得分值進行排序,得到新的序列L4,作為特征詞;
步驟S6,將企業之間共同的關鍵短語作為連接點連接不同的企業,以形成企業之間的關聯關系,通過企業間的關聯關系圖,向用戶提供企業之間的相互關系,再進行結構化加工即可顯示競爭關系和上下游關系。
2.如權利要求1所述的基于關鍵詞提取分析的企業關系計算方法,其特征在于,在所述步驟S4中,所述對T1、T2和T3分別提取關鍵短語,采用以下算法實現:
TextRank算法、基于最大熵模型自動提取算法、基于決策樹或基于樸素貝葉斯的機器學習方法、基于詞的語義相似性度量的語言處理方法。
3.如權利要求2所述的基于關鍵詞提取分析的企業關系計算方法,其特征在于,提取關鍵詞的多個算法,限定只篩選出名詞、動名詞、和專有名詞。
4.一種基于關鍵詞提取分析的企業關系計算系統,其特征在于,包括:
文本信息獲取模塊,用于獲取文本信息包含的段落數;
文本字數平均值計算模塊,用于計算文本信息T1中每個段落的字數Cn以及所有段落的字數平均值CV,提取出Cn/CV大于等于某個閾值k的段落文字,組裝成為一個新的文字段落T2;
詞典設定模塊,用于設置所述詞典中的詞語為引導詞,根據設置的引導詞對所述文本信息進行一次搜索,將文本中的語句在此摘錄出一個新的文本T3;
短語序列提取模塊,用于對所述T1、T2和T3分別提取關鍵短語,得到L1、L2和L3三個短語序列;
權重值計算模塊,用于將L1、L2和L3分別設置對應的權重值a、b和c,從三個短語序列中檢查出重復詞語,根據重復詞語出現的次數與所在序列的權重值的乘積作為得分值,不重復的詞語的得分值即為所在序列的權重值,其中,所述權重值計算模塊根據得分值進行排序,得到新的序列L4,作為特征詞;
企業關聯模塊,用于將企業之間共同的關鍵短語作為連接點連接不同的企業,以形成企業之間的關聯關系,向用戶提供企業之間的相互關系,再進行結構化加工即可顯示競爭關系和上下游關系。
5.如權利要求4所述的基于關鍵詞提取分析的企業關系計算系統,其特征在于,所述短語序列提取模塊對所述T1、T2和T3分別提取關鍵短語,采用以下算法實現:
TextRank算法、基于最大熵模型自動提取算法、基于決策樹或基于樸素貝葉斯的機器學習方法、基于詞的語義相似性度量的語言處理方法。
6.如權利要求4所述的基于關鍵詞提取分析的企業關系計算系統,其特征在于,所述短語序列提取模塊采用的提取關鍵詞的多個算法,限定只篩選出名詞、動名詞、和專有名詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于辛柯俊,未經辛柯俊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710354039.7/1.html,轉載請聲明來源鉆瓜專利網。





