[發明專利]一種基于關鍵詞提取分析的企業關系計算方法及系統有效
| 申請號: | 201710354039.7 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN107341142B | 公開(公告)日: | 2020-08-21 |
| 發明(設計)人: | 辛柯俊 | 申請(專利權)人: | 辛柯俊 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 北京中企鴻陽知識產權代理事務所(普通合伙) 11487 | 代理人: | 郭鴻雁 |
| 地址: | 210049 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 提取 分析 企業 關系 計算方法 系統 | ||
本發明提出了一種基于關鍵詞提取分析的企業關系計算方法及系統,包括:獲取文本信息并獲取文本信息包含的段落數;計算文本信中每個段落的字數,組裝成新的文字段落;設定詞典,并設置詞典中的詞語為引導詞,根據設置的引導詞對文本信息進行一次搜索,將文本中的語句在此摘錄出一個新的文本;得到三個短語序列;分別設置對應的權重值,從三個短語序列中檢查出重復詞語,根據重復詞語出現的次數與所在序列的權重值的乘積作為得分值,不重復的詞語的得分值即為所在序列的權重值;將企業之間共同的關鍵短語作為連接點連接不同的企業。本發明計算企業之間的關聯關系,將企業之間共同的關鍵短語作為連接點連接不同的企業,形成企業之間的關聯關系。
技術領域
本發明涉及計算機網絡技術領域,特別涉及一種基于關鍵詞提取分析的企業關系計算方法及系統。
背景技術
現有的企業信息綜合網站,大都是對企業信息的簡單羅列,并且是主要針對單一企業的信息匯總和分析。現有技術的缺點是存在缺少一種對企業之間的相互關系進行分析的方式。其中,如何分析各個企業的基本信息,然后通過自然語義的方式從企業信息中提取出相應關鍵詞,以實現計算機自動化對該企業關系分析,是當前需要解決的技術問題。
發明內容
本發明的目的旨在至少解決所述技術缺陷之一。
為此,本發明的目的在于提出一種基于關鍵詞提取分析的企業關系計算方法。
為了實現上述目的,本發明的實施例提供一種基于關鍵詞提取分析的企業關系計算方法,包括如下步驟:
步驟S1,獲取文本信息T1,并獲取所述文本信息包含的段落數;
步驟S2,計算文本信息T1中每個段落的字數Cn以及所有段落的字數平均值CV,提取出Cn/CV大于等于某個閾值k的段落文字,組裝成為一個新的文字段落T2;
步驟S3,設定詞典,并設置所述詞典中的詞語為引導詞,根據設置的引導詞對所述文本信息進行一次搜索,將文本中的語句在此摘錄出一個新的文本T3;
步驟S4,對所述T1、T2和T3分別提取關鍵短語,得到三個L1、L2和L3三個短語序列;
步驟S5,將L1、L2和L3分別設置對應的權重值a、b和c,從三個短語序列中檢查出重復詞語,根據重復詞語出現的次數與所在序列的權重值的乘積作為得分值,不重復的詞語的得分值即為所在序列的權重值;
步驟S6,將企業之間共同的關鍵短語作為連接點連接不同的企業,以形成企業之間的關聯關系。
進一步,在所述步驟S4中,采用以下算法提取關鍵詞:
TextRank算法、基于最大熵模型自動提取算法、基于決策樹或基于樸素貝葉斯的機器學習方法、基于詞的語義相似性度量的語言處理方法。
進一步,所述提取關鍵詞的多個算法,限定只篩選出名詞、動名詞、和專有名詞。
進一步,在所述步驟S5中,根據得分值進行排序,得到新的序列L4,作為特征詞。
進一步,向用戶提供企業之間的相互關系,再進行結構化加工即可顯示競爭關系和上下游關系。
本發明實施例還提供一種基于關鍵詞提取分析的企業關系計算系統,包括:文本信息獲取模塊、文本字數平均值計算模塊、詞典設定模塊、短語序列提取模塊、權重值計算模塊和企業關聯模塊。
具體地,文本信息獲取模塊用于獲取文本信息包含的段落數。
文本字數平均值計算模塊,用于計算文本信息T1中每個段落的字數Cn以及所有段落的字數平均值CV,提取出Cn/CV大于等于某個閾值k的段落文字,組裝成為一個新的文字段落T2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于辛柯俊,未經辛柯俊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710354039.7/2.html,轉載請聲明來源鉆瓜專利網。





