[發明專利]非結構化數據分析系統和方法在審
| 申請號: | 202011265115.5 | 申請日: | 2016-06-28 |
| 公開(公告)號: | CN112732878A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 汪曉宇 | 申請(專利權)人: | 斯圖飛騰公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/34 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 穆童 |
| 地址: | 美國北卡*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 數據 分析 系統 方法 | ||
一種非結構化數據分析系統,包括:非結構化數據分析算法,其駐留在服務器上并可經由瀏覽器訪問,所述非結構化數據分析算法可操作用于:從一個或更多個遠程源接收非結構化數據,向非結構化數據應用一個或更多個分析工具,以及向一個或更多個用戶顯示總結信息;其中在呈現層、探索層和注釋層中向所述一個或更多個用戶顯示所述總結信息。所述非結構化數據分析算法還可操作用于從一個或更多個遠程源接收外部數據。所述呈現層顯示下述中的一個或更多個:非結構化數據、非結構化數據的總結、以及總結信息。所述探索層允許一個或更多個用戶修改總結信息的粒度,由此修改呈現層的粒度。一個或更多個用戶可以經由注釋層同時與非結構化數據分析系統進行交互。
本申請是申請日為2016年6月28日的題為“非結構化數據分析系統和方法”的中國發明專利申請No.201610496280.9的分案申請。
相關申請的交叉引用
本專利申請/專利要求共同未決的在2015年5月11日遞交的標題為“UNSTRUCTUREDDATA ANALYTICS SYSTEMS AND METHODS INCLUDING A VISUALIZATION INTERFACE”的美國臨時專利申請No.62/159,662以及在2015年5月11日遞交的標題為“UNSTRUCTURED DATAANALYTICS SYSTEMS AND METHODS INCLUDING NATURAL LANGUAGE PROCESSING ANDSTATISTICS FUNCTIONS”的美國臨時專利申請No.62/159,683的優先權,通過引用將這二者的全部內容并入本文。
技術領域
本發明一般涉及用于分析大文本語料和非結構化數據的方法和系統。更具體地,本發明涉及使用可視化分析和話題建模、可視化界面、以及自然語言處理及統計功能分析大文本語料和非結構化數據的方法和系統。
背景技術
對文本信息和非結構化數據的大量且日益增長的集合的管理是一個挑戰性的問題。知識豐富的文本信息的數據存儲庫已經變得普及,導致要整理、發掘和分析海量數據。隨著文檔數量的增加,學習文本語料的含義變得認知成本高昂且耗時。
對于自然語言處理(NLP)領域中的研究者,對大文本語料的自動總結這一挑戰已經成為主要關注點。為了總結文本語料,研究者已經開發了諸如用于提取并表示詞語的上下文使用環境下的含義的隱含語義分析(LSA)之類的技術。LSA產生可以用于文檔分類和聚類的概念空間。最近,已經出現了作為用于找到非結構化文本集合中的語義上有意義的話題的有利新技術的概率話題模型。為了進一步提供對文本語料的可視化總結,來自知識發現和可視化社區領域的研究者已經開發了用以基于LSA和概率話題模型(probabilistictopic models)二者支持大文本語料的可視化(visualization)和探索(exploration)的工具和技術。
盡管概率話題模型已經在解釋和語義關聯方面證明了它們的優勢,但是幾乎沒有交互可視化系統已經利用這種模型來支持對文本語料的探索和分析。基于范例的可視化和概率隱含語義可視化方法已經在估計文本語料的話題的同時將文檔投射到語義二維(2D)圖表上。盡管文檔簇良好地服從所選標簽,但是幾乎不存在對文檔簇的交互探索和分析的機會。一個例外是基于時間的可視化系統TIARA,其應用河流圖(ThemeRiver)隱喻以基于話題內容可視化地總結文本集合。通過TIARA系統的分析,用戶能夠回答諸如以下問題:文檔語料中的主要話題是什么?以及話題是如何隨時間演進的?
然而,當分析大文本語料時,存在當前文本分析可視化系統難以回答的許多其他現實世界問題。具體地,關于話題和文檔之間的關系的問題難以用現有工具解答。這種問題包括:基于文檔的話題分布的文檔特征是什么?以及什么文檔一次包括多個話題(以及這多個話題是什么)?在科學策略的領域中,例如具有多個話題的文檔可以指示跨學科的(即,涵蓋多于一個知識體)出版物。類似地,在社交媒體分析的上下文中,具有多個話題的文檔可以表示與不同的熱點話題相關的唯一新聞文章。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于斯圖飛騰公司,未經斯圖飛騰公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011265115.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





