[發明專利]計算機實現的文本數據分析方法及其設備在審
| 申請號: | 202010141433.4 | 申請日: | 2020-03-04 |
| 公開(公告)號: | CN113361276A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 許達果;何超 | 申請(專利權)人: | 慧科訊業有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/205;G06F40/216 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 陳嵐 |
| 地址: | 中國*** | 國省代碼: | 香港;81 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算機 實現 文本 數據 分析 方法 及其 設備 | ||
1.一種計算機實現的文本數據分析方法,包括:
從數據庫獲得指定時間段內搜集的文本數據集,所述文本數據集包括一個或多個文本,其中每個文本按照預定規則分割成一個或多個文本片段,每個文本片段包括至少一個句子;
為所述文本數據集中的每一個文本識別與該文本中涉及的一個或多個公司實體相關聯的命名實體及其在該文本中的文本片段的位置,以獲得命名實體集;
針對所述命名實體集中的每個命名實體,導出與每個命名實體相應文本片段,以得到命名實體片段集;
針對預設話題集中的每個話題,從每個命名實體相應的命名實體片段集中提取與該話題相關的文本片段,以便為每個話題產生相應的話題片段集;
為每個命名實體的每個話題片段集計算情感分數。
2.根據權利要求1所述的方法,還包括針對所述指定時間段內所述文本數據集的多個文本,統計同一命名實體關于同一話題的所有話題片段集的情感分數的分布,以得到該命名實體關于該話題的情感指標,并生成命名實體話題情緒指標時間序列。
3.根據權利要求2所述的方法,還包括將得到的所述指定時間段內所述文本數據集的多個文本中的每個命名實體針對每個話題的情感指標,以及得到的命名實體話題情緒指標時間序列以規定的格式存儲在所述數據庫中。
4.根據權利要求1所述的方法,其中,得到命名實體片段集的步驟包括:
如果文本中的第一文本片段出現第一命名實體,則將該文本片段包括的一個或多個片段加入第一命名實體相關的第一命名實體片段集,即使該文本片段中出現其它的命名實體。
5.根據權利要求4所述的方法, 其中,得到命名實體片段集的步驟進一步包括;
對所述第一文本片段的前a個連續的文本片段和后b個連續的文本片段進行搜索,如果沒有搜索到其他命名實體,則將在該第一文本片段的前a個連續的文本片段和后b個連續的文本片段也加入第一命名實體相關的第一命名實體片段集。
6.根據權利要求1所述的方法,其中為每個話題產生相應的話題片段集的步驟包括:
計算第一命名實體相應的片段集與第一話題的第一相關性,
從第一命名實體相應的片段集中刪除第一文本片段,再次計算第一命名實體相應的片段集與第一話題的第二相關性;
對第一相關性和第二相關性進行比較,如果第二相關性比第一相關性小,則指示第一文本片段與第一話題相關,且第一文本片段被提取到與第一話題片段集中。
7.一種基于計算機的文本數據分析設備,包括
被適配成執行計算機程序的處理器,
用于存儲計算機程序的存儲器,
用于存儲經由互聯網以預定時間間隔搜集的文本的數據庫;
其特征在于,所述的文本數據分析設備還包括:
單文本信息抽取模塊(130),配置為從數據庫獲得指定時間段內搜集的文本數據集以獲取關于多個公司相關話題的情感分數,所述文本數據集包括一個或多個文本,其中每個文本按照預定規則分割成一個或多個文本片段,每個文本片段包括至少一個句子,所述單文本信息抽取模塊(130)包括:
命名實體識別模塊(131),配置為針對所述文本數據集中的每一個文本識別與該文本中涉及的一個或多個公司相關聯的命名實體及其在文本中文本片段的位置,以獲得命名實體集;
命名實體片段抽取模塊(132),配置為針對所述命名實體集中的每個命名實體,導出與每個命名實體相應的文本片段,以得到命名實體片段集 ;
話題分析模塊(133),配置為分別計算每個命名實體相應的命名實體片段集與多個話題的相關性;
話題片段抽取模塊(134),配置為針對多個話題的每個話題,從每個命名實體相應的命名實體片段集中提取與該話題相關的片段,以便為每個話題產生相應的話題片段集;以及
情感分析模塊(135),配置為對每個命名實體的每個話題片段集計算情感分數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于慧科訊業有限公司,未經慧科訊業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010141433.4/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





