[發(fā)明專利]基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011111355.X | 申請(qǐng)日: | 2020-10-16 |
| 公開(kāi)(公告)號(hào): | CN112199926A | 公開(kāi)(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計(jì))人: | 吳亮;王斌;邱芹軍;周媛;李文佳;劉昊;馬瑩;李雙江 | 申請(qǐng)(專利權(quán))人: | 中國(guó)地質(zhì)大學(xué)(武漢) |
| 主分類號(hào): | G06F40/166 | 分類號(hào): | G06F40/166;G06F40/284;G06F40/30 |
| 代理公司: | 武漢知產(chǎn)時(shí)代知識(shí)產(chǎn)權(quán)代理有限公司 42238 | 代理人: | 龔春來(lái) |
| 地址: | 430000 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文本 挖掘 自然語(yǔ)言 處理 地質(zhì) 報(bào)告 可視化 方法 | ||
1.一種基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法,其特征在于:包括以下步驟:
S101:獲取研究區(qū)域的地質(zhì)報(bào)告,并對(duì)所述地質(zhì)報(bào)告進(jìn)行預(yù)處理,得到預(yù)處理后的地質(zhì)報(bào)告文本;
S102:將所述預(yù)處理后的地質(zhì)報(bào)告文本,分別加入地質(zhì)文本詞典和停用詞詞典后進(jìn)行分詞,得到分詞處理后的地質(zhì)報(bào)告文本;
S103:將所述分詞處理后的地質(zhì)報(bào)告文本,分別利用詞頻統(tǒng)計(jì)、TF-IDF關(guān)鍵詞提取技術(shù)進(jìn)行關(guān)鍵詞信息提取,得到詞頻統(tǒng)計(jì)結(jié)果和TF-IDF關(guān)鍵詞提取結(jié)果;其中,TF-IDF關(guān)鍵詞提取結(jié)果作為第一關(guān)鍵詞提取結(jié)果;
S104:將所述分詞處理后的地質(zhì)報(bào)告文本,利用改進(jìn)的TF-IDF關(guān)鍵詞提取技術(shù)進(jìn)行關(guān)鍵詞信息提取,得到第二關(guān)鍵詞提取結(jié)果;
S105:考慮到相鄰詞語(yǔ)間的相關(guān)性,統(tǒng)計(jì)所述分詞處理后的地質(zhì)報(bào)告文本中每相鄰兩個(gè)詞語(yǔ)一起出現(xiàn)的次數(shù),并將統(tǒng)計(jì)結(jié)果轉(zhuǎn)化為共現(xiàn)矩陣;
S106:將所述詞頻統(tǒng)計(jì)結(jié)果、所述第一關(guān)鍵詞提取結(jié)果和所述第二關(guān)鍵詞提取結(jié)果分別進(jìn)行可視化,并利用所述共現(xiàn)矩陣實(shí)現(xiàn)語(yǔ)義相似性的度量,實(shí)現(xiàn)了地質(zhì)文本信息的充分挖掘。
2.如權(quán)利要求1所述的一種基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法,其特征在于:步驟S101中,預(yù)處理包括:
S201:實(shí)現(xiàn)地質(zhì)報(bào)告文本格式的轉(zhuǎn)換,將地質(zhì)報(bào)告.pdf格式轉(zhuǎn)化為.txt格式,并去除地質(zhì)報(bào)告中的圖件和表格內(nèi)容;
S202:將文本內(nèi)容進(jìn)行剔除噪聲的處理,包括公式的剔除和無(wú)關(guān)符號(hào)的剔除;所述無(wú)關(guān)符號(hào)包括:~,%和<;
S203:將處理好的文本內(nèi)容按行存儲(chǔ)在.txt文本中,得到預(yù)處理后的地質(zhì)報(bào)告文本。
3.如權(quán)利要求2所述的一種基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法,其特征在于:步驟S102具體包括:對(duì)所述預(yù)處理后的地質(zhì)報(bào)告文本,加入預(yù)先設(shè)計(jì)好的地質(zhì)文本詞典,通過(guò)不引用和引用停用詞詞典分別實(shí)現(xiàn)粗粒度地質(zhì)報(bào)告文本的分詞和精細(xì)化地質(zhì)報(bào)告文本的分詞,并將粗粒度地質(zhì)報(bào)告文本的分詞結(jié)果和精細(xì)化地質(zhì)報(bào)告文本的分詞結(jié)果均以.txt格式輸出。
4.如權(quán)利要求3所述的一種基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法,其特征在于:步驟S103具體包括:針對(duì)S102中粗粒度地質(zhì)報(bào)告文本的分詞結(jié)果和精細(xì)化地質(zhì)報(bào)告文本的分詞結(jié)果:首先進(jìn)行詞頻統(tǒng)計(jì),通過(guò)統(tǒng)計(jì)每個(gè)詞語(yǔ)在地質(zhì)報(bào)告文本中出現(xiàn)的次數(shù),獲取地質(zhì)報(bào)告文本關(guān)鍵詞信息;然后,將獲得的精細(xì)化地質(zhì)報(bào)告文本的分詞結(jié)果中的每個(gè)詞的詞頻數(shù)除以地質(zhì)報(bào)告文本總詞數(shù),得到標(biāo)準(zhǔn)化的詞頻;同時(shí),考慮到同一地區(qū)可能有多份相關(guān)內(nèi)容的地質(zhì)礦床報(bào)告文檔,引入了逆文檔頻率,通過(guò)TF-IDF的關(guān)鍵詞計(jì)算,排除地質(zhì)文本內(nèi)容長(zhǎng)短和多份相關(guān)內(nèi)容文檔的影響,得到第一關(guān)鍵詞提取結(jié)果。
5.如權(quán)利要求4所述的一種基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法,其特征在于:步驟S104中,利用改進(jìn)的TF-TDF技術(shù)進(jìn)行關(guān)鍵詞信息提取具體為:針對(duì)地質(zhì)報(bào)告文本中專有名詞詞長(zhǎng)的影響,對(duì)TF-IDF關(guān)鍵詞提取技術(shù)進(jìn)行了改進(jìn),即對(duì)S103中-第一關(guān)鍵詞提取結(jié)果進(jìn)行詞長(zhǎng)統(tǒng)計(jì),并與TF-IDF的結(jié)果相加,得到第二關(guān)鍵詞提取結(jié)果。
6.如權(quán)利要求5所述的一種基于文本挖掘和自然語(yǔ)言處理的地質(zhì)報(bào)告文本可視化方法,其特征在于:步驟S106具體包括:首先所述詞頻統(tǒng)計(jì)結(jié)果以柱狀條形圖和詞云形式展示,所述第一關(guān)鍵詞提取結(jié)果和所述第一關(guān)鍵詞提取結(jié)果分別以柱狀條形圖進(jìn)行可視化展示;其次,利用S105中獲得的共現(xiàn)矩陣實(shí)現(xiàn)語(yǔ)義相似性的度量,分析地質(zhì)文本詞語(yǔ)的中心性,并根據(jù)不同的粒度進(jìn)行了關(guān)鍵詞分析,實(shí)現(xiàn)了地質(zhì)文本的信息充分挖掘。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)地質(zhì)大學(xué)(武漢),未經(jīng)中國(guó)地質(zhì)大學(xué)(武漢)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011111355.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種自然語(yǔ)言的搜索方法及系統(tǒng)
- 基于交互上下文處理自然語(yǔ)言方法
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言描述信息的生成方法及裝置
- 風(fēng)格可定制的文本生成
- 多輪預(yù)制對(duì)話
- 改變應(yīng)答以提供表現(xiàn)豐富的自然語(yǔ)言對(duì)話的方法、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言查詢的轉(zhuǎn)換
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言理解模型訓(xùn)練方法、自然語(yǔ)言理解方法及裝置





