[發明專利]基于文本挖掘和自然語言處理的地質報告文本可視化方法在審
| 申請號: | 202011111355.X | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112199926A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 吳亮;王斌;邱芹軍;周媛;李文佳;劉昊;馬瑩;李雙江 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/284;G06F40/30 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 龔春來 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 挖掘 自然語言 處理 地質 報告 可視化 方法 | ||
本發明提供了一種基于文本挖掘和自然語言處理的地質報告文本可視化方法;包括首先,利用自然語言處理技術對地質報告進行數據預處理;其次,基于構建的停用詞詞庫對文本中的停用詞進行剔除;然后,統計相鄰兩個詞之間共同出現的次數,并生成共現矩陣;最后,進行了詞頻統計、改進的TF?IDF關鍵詞提取等,并分別進行了詞頻統計可視化、關鍵詞詞云可視化、中心性分析可視化、多尺度關鍵詞分析可視化等。本發明提出的地質報告文本可視化流程能充分發現和挖掘地質文本隱含的信息,能迅速從可視化結果中獲取關鍵信息,使繁雜的文本信息能以非常直觀的形式進行展示。本發明所提出的可視化流程對工程報告類文本具有較高的適用性和參考價值。
技術領域
本發明涉及數據挖掘和自然語言處理領域,尤其涉及一種基于文本挖掘和自然語言處理的地質報告文本可視化方法。
背景技術
大數據時代背景下,數據的利用價值越來越受到研究者們的青睞。然而,海量的數據紛繁復雜,處理起來難度極大。如何在海量數據里面挖掘出更具有研究價值和意義的信息,是數據研究者們一直在攻克的難題。地質大數據作為大數據的典型代表,是互聯網時代背景下大數據相關理論、技術及方法在地質領域中的應用與實踐。地質研究屬于數據密集型科學,當前的研究工作已經從定性轉變到定量,從數據稀少型轉變到數據密集型。面對海量的地質調查數據資料,需要進一步樹立大數據思維、定量思維及獲取“地質資源”和形成核心“地質數據知識”的新思維方式,以數據密集型工作方法為基礎,進而實現地質數據高效便捷的集成與融合。地質大數據代表的是以地質調查、礦產勘查及科研工作中形成的各類成果,通常是以文本、音頻、圖表等多種數據形式存儲,主要的數據來源包括全國地質資料館和各級地質圖書館、全國礦產資源評價資料、中國地質調查數據庫和相關地學文獻數據庫。當前,在地質調查過程中積累了大量的地質報告,每份報告都包含不同的地質主題,如區調、巖石、礦物或水文,這些報告的內容通常以不同的格式存儲,如.doc、.pdf、.jpg、.tiff和空間數據文件。此外,這些報告由大量的結構化數據和非結構化數據組成。結構化數據通常使用關系數據庫或空間數據庫存儲和管理;然而,大量地質調查報告、工作記錄等非結構化數據還未得到充分利用與挖掘。非結構化數據包含多種類型和碎片化的信息,比結構化數據包含更豐富的信息,具有更大的潛在價值。如何挖掘地質報告非結構化文本隱含信息,使之直觀地可視化展示成了重要的研究課題。
地質報告文本信息的挖掘中,數據預處理是最重要的前提。其中,分詞是預處理的關鍵。中文地質報告的分詞有一定的難度,主要由于地質報告中命名實體眾多,且不具備一定的規則。地質報告分詞首先需要一份良好的分詞詞典,但目前符合要求的詞典非常少。詞典確定后,地質文本句子中可能含有很多詞典中的詞語,它們可能相互重疊,輸出哪一個由規則決定。常用的規則有正向最長匹配、逆向最長匹配和雙向最長匹配,它們都是基于完全切分過程。完全切分指的是,找出一段文本中的所有單詞。正向最長匹配簡單意義上來解釋,就是越長的單詞表達的意義越豐富,也即單詞越長優先級越高。具體來說,就是在以某個下標為起點遞增查詞的過程中,優先輸出更長的單詞,這種規則被稱為最長匹配算法。該下標的掃描順序如果從前往后,則稱為正向最長匹配,反之稱為逆向最長匹配。而通常情況下,上述兩種方法并不能完全解決問題,所以前人在融合兩種匹配方法的特點后,提出了雙向最長匹配。其規則如下:(1)同時執行正向和逆向最長匹配,若兩者的詞數不同,則返回詞數更少的那一個;(2)否則,返回兩者中單字更少的那一個。當單字也相同時,優先返回逆向最長匹配的結果。
從地質報告文本中進行信息抽取是重要的研究方向和熱點。信息抽取是一個寬泛的概念,指的是從非結構化文本中提取結構化信息的一類技術。信息抽取當中一個重要的研究為關鍵詞提取。顧名思義,關鍵詞即提取文本中重要的單詞,而不限于詞語的新鮮程度。由簡入繁的方法分別為詞頻、TF-IDF和TextRank。關鍵詞通常在文章中反復出現,通過統計文章中每種詞語的詞頻并排序,可以初步獲取部分關鍵詞,詞頻統計的流程一般是分詞、停用詞過濾、按詞頻取前n個。TF-IDF是信息檢索中衡量一個詞語重要程度的統計指標,被廣泛用于Lucene、Solr、Elasticsearch等搜索引擎。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011111355.X/2.html,轉載請聲明來源鉆瓜專利網。





