[發明專利]一種基于自然語言處理的文本數據統計分析系統及方法有效
| 申請號: | 202010465823.7 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111709235B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 華志剛;郭榮;程衛國;汪勇;沈銘科 | 申請(專利權)人: | 上海發電設備成套設計研究院有限責任公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30;G06F16/26;G06F16/36;G06N3/0464;G06N3/044;G06N3/045;G06N3/08 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 徐俊 |
| 地址: | 201100 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 文本 數據 統計分析 系統 方法 | ||
1.一種基于自然語言處理的文本數據統計分析系統,其特征在于,包括自然語言信息抽取子系統、知識圖譜管理子系統、數據分析子系統和圖表可視化子系統,4個子系統分管不同功能:
所述的自然語言信息抽取子系統包括語料預處理模塊和知識抽取模塊,所述的語料預處理模塊用于文檔文本的預處理,包括語料導入、格式轉換、語料清理、分詞、人工打標、去停用詞,所述的知識抽取模塊將文檔利用自然語言處理技術進行文檔信息抽取,為后續知識圖譜構建提供知識數據;
所述的知識圖譜管理子系統包括本體構建模塊和數據配置模塊,所述的本體構建模塊用于定義知識圖譜的領域、標簽、詞典和本體,所述的數據配置模塊用于知識數據的配置,并建立數據與圖譜標簽的映射關系,為后續數據分析模塊提供數據源,知識圖譜管理子系統提供可視化功能,可進行圖譜數據的增刪改查;
所述的數據分析子系統包括問題理解模塊、圖查詢計算模塊和語義匹配模塊,所述的問題理解模塊連接用戶交互界面,提供用戶問題描述模板,用戶可在用戶交互界面根據模板輸入待分析的問題,將用戶待分析的問題通過基于模板和深度學習的自然語言處理技術進行語義提取,所述的圖查詢計算模塊利用圖算法對知識圖譜數據進行查詢和數據統計,所述的語義匹配模塊利用自然語言處理技術判斷圖譜數據查詢結果是否匹配用戶待分析問題,如果匹配則需要納入統計,否則不納入;
所述的數據可視化子系統用于數據圖表的生成和可視化展現,系統提供數據圖表生成模板及管理功能,可根據圖表模板讀取數據分析子系統統計結果,并連接用戶交互界面,用戶可進行展示條件篩選,根據數據分析子系統統計結果和用戶篩選條件自動生成數據圖表。
2.根據權利要求1所述的一種基于自然語言處理的文本數據統計分析系統,其特征在于,所述的語料預處理模塊包含中文分詞技術,該中文分詞技術是指包含字符串匹配分詞算法、HMM隱馬爾可夫模型、CRF條件隨機場、SVM支持向量機和RNN循環神經網絡在內的基礎中文分詞算法,運用中文分詞算法將中文序列切分成單獨的詞,為知識抽取提供基礎。
3.根據權利要求1所述的一種基于自然語言處理的文本數據統計分析系統,其特征在于,所述的知識抽取模塊中包含有序列標注技術,該序列標注技術是指包含HMM隱馬爾可夫模型、MaxEnt最大熵模型、CRF條件隨機場、RNN循環神經網絡和CNN卷積神經網絡在內的基礎序列標注模型,從帶標注的文本數據中抽取特征進行序列標注模型訓練,用于從連續文本數據中抽取指定意義的文本片段,運用文本分類、深度學習和字符串算法來提取海量文本數據潛在特征,再結合傳統n-gram特征,使用表示學習優化特征提取,再使用增強學習方式,結合少量標注訓練數據提升模型效果,在標注工作完成后,進行文檔數據的抽取,用于之后的導入。
4.根據權利要求1所述的一種基于自然語言處理的文本數據統計分析系統,其特征在于,所述的語義匹配模塊包含語義相似度技術,該語義相似度計算技術是指包含TF-IDF算法、BM25算法、simhash算法、DSSM算法、CNN卷積神經網絡和RNN循環神經網絡在內的基礎語義相似度算法,運用語義相似度技術計算用戶待分析問題模板抽取的指定文本段和利用圖算法查詢的圖譜數據兩者之間的語義相似性,用于判斷查詢結果是否匹配用戶待分析問題。
5.根據權利要求1所述的一種基于自然語言處理的文本數據統計分析系統,其特征在于,所述的圖查詢計算模塊包含圖算法技術,該圖算法技術是指遍歷算法、搜索算法、最小生成樹算法、圖匹配算法在內的基礎圖算法,根據圖算法技術進行圖譜數據查詢,查詢結果供語義匹配模型進行判斷。
6.根據權利要求5所述的一種基于自然語言處理的文本數據統計分析系統,其特征在于,所述的圖查詢計算模塊還包含統計計算功能,該統計計算功能包括求和、求差、求平均值、求最大值、求最小值在內的基本統計數學計算,統計計算結果用于圖表可視化模塊調用。
7.根據權利要求1所述的一種基于自然語言處理的文本數據統計分析系統,其特征在于,所述的知識圖譜模板利用事先定義的三元組來定義所需抽取的知識圖譜的數據。
8.一種基于自然語言處理的文本數據統計分析方法,其特征在于,采用權利要求1至7任一項所述的一種基于自然語言處理的文本數據統計分析系統,先通過自然語言處理技術和知識圖譜技術構建知識庫,再通過智能數據分析和可視化技術實現文本數據統計分析;具體包括如下步驟:
第一步:搭建自然語言信息抽取子系統,其中包括語料預處理模塊和知識抽取模塊;搭建知識圖譜管理子系統,其中包括本體構建模塊和數據配置模塊;搭建數據分析子系統,其中包括問題理解模塊、圖查詢計算模塊和語義匹配模塊,搭建數據可視化子系統;
第二步:在知識圖譜管理子系統本體構建模塊完成知識圖譜領域、標簽、詞典和本體的定義;
第三步:上傳文檔至語料預處理模塊,對文檔進行格式轉換、語料清理、分詞、人工打標、去停用詞的預處理,預處理后的文本導入知識抽取模塊;
第四步:在知識抽取模塊對文檔內所需輸出的數據進行標注,標注完成后,標注數據自動抽取并導入至知識圖譜中,通過數據配置模塊建立數據與圖譜標簽的映射關系,為后續數據分析模塊提供數據源,可進行圖譜數據的增刪改查;
第五步:在問題理解模塊的問題描述模板中輸入待分析的問題,通過基于模板和深度學習的自然語言處理技術進行語義提取;
第六步:圖查詢計算模塊利用圖算法對知識圖譜數據進行查詢,并根據語義匹配模塊利用自然語言處理技術判斷查詢結果是否納入統計,如果匹配待分析問題則需要納入統計,否則不納入;
第七步:數據可視化子系統根據圖表生成模板抽取數據統計結果,自動生成數據圖表,用戶可根據條件進行篩選展示內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海發電設備成套設計研究院有限責任公司,未經上海發電設備成套設計研究院有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010465823.7/1.html,轉載請聲明來源鉆瓜專利網。





