[發明專利]一種從文檔集中快速提取有用數據的方法有效
| 申請號: | 201710985840.1 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN107861943B | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 劉軍旗;蘇愛軍;唐輝明;吳沖龍;姚夢輝;滕偉福;王亮清;封瑞雪;趙劍雄;陳根深;鄒宗興;王菁莪;曾雯;張抒 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/903 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 付春霞 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 集中 快速 提取 有用 數據 方法 | ||
本發明提供一種從文檔集中快速提取有用數據的方法,包括以下步驟:1:進行分詞處理,得到每個文檔中的潛在檢索詞和該文檔中的每個段落中的潛在檢索詞;2:進行詞頻統計,得到每個段落中每個潛在檢索詞的詞頻統計結果,和文檔整體的潛在檢索詞的詞頻統計結果;3:采用非結構化數據庫技術進行存儲,使所述文檔集中所有文檔轉化為非結構化數據庫中的一個有序集合;4:輸入檢索詞,在具有有序集合的非結構化數據庫中實施檢索;5:輸出檢索結果。有益效果:檢索簡單、使用方便。
技術領域
本發明涉及信息檢索技術領域,尤其涉及一種從文檔集中快速提取有用數據的方法。
背景技術
非結構化數據庫:一般來說,非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便采用類似關系型數據庫以二維表來表達的數據。如Word、PDF等文檔類數據,圖片類數據,圖像、音頻、視頻類數據等。非結構化數據在所有數據中占有很大的比重。采用關系型數據庫等傳統結構化數據庫對非結構數據進行管理,很難方便地挖掘蘊含在非結構化數據中的有價值信息。
中文分詞技術:中文分詞是指將文本中連續的字序列按照一定的規范切分成一個個單獨的詞,并重新組合成詞序列的過程。
詞頻統計技術:某個詞在某個文件中出現的次數稱為該詞在該文件中的詞頻。目前詞頻統計一般采用TF-IDF(term frequency–inverse document frequency)方法。這是一種用于情報檢索與文本挖掘的常用加權技術,用以評估一個詞對于一個文件或者一個語料庫中的一個領域文件集的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
文檔檢索是指在輸入檢索詞的情況下,在文檔數據庫中查找具有所述檢索詞的最優文檔的過程。隨著社會生活、工作的節奏的不斷加快和文檔數量、詞語數量的不斷增加,在海量數據中只進行文檔查找,即使查找到了相關文檔,還需要花費大量時間在這些相關文檔中人工查找相關數據,效率極低且相當困難。例如:地質災害工作積累了大量的文檔資料,這些文檔資料一般都是以整篇文檔為單位進行整體存儲,要從一個或多個文檔中提取某個具體數據或信息,或要確定某個具體數據或信息在某個或某幾個文檔的哪個具體段落中,并把這些信息快速提取出來,到目前為止都是很困難的。
發明內容
有鑒于此,本發明的實施例提供了一種檢索簡單、使用方便的從文檔集中快速提取有用數據的方法。
本發明的實施例提供一種從文檔集中快速提取有用數據的方法,包括以下步驟:
步驟1:使用中文分詞工具,對文檔集中的每個文檔進行包括分詞、詞性標注及分詞篩選在內的預處理,得到每個文檔中的潛在檢索詞和該文檔中的每個段落中的潛在檢索詞;
步驟2:對所述文檔集中的每個文檔中的每個段落中的潛在檢索詞進行詞頻統計,得到每個段落中每個潛在檢索詞的詞頻統計結果,基于段落的詞頻統計結果得到相應的文檔整體的潛在檢索詞的詞頻統計結果;
步驟3:采用非結構化數據庫技術存儲經步驟1和步驟2處理后的文檔集,對所述文檔集中的每個文檔建立一個存儲集,每個存儲集的存儲內容包括:{文檔的名稱、文檔的內容、文檔中每個段落的潛在檢索詞及每個所述潛在檢索詞的詞頻統計結果、文檔的潛在檢索詞及每個所述潛在檢索詞的詞頻統計結果、存儲時間},使所述文檔集中所有文檔轉化為非結構化數據庫中的一個有序集合;
步驟4:輸入檢索詞,在具有有序集合的非結構化數據庫中實施檢索;
步驟5:根據檢索詞與潛在檢索詞的匹配,以及潛在檢索詞的詞頻統計結果,輸出檢索結果。
進一步地,所述潛在檢索詞包括名詞、動詞和數量詞。
進一步地,步驟1中所述的分詞篩選為剔除經分詞和詞性標注后的詞中的非潛在檢索詞,所述非潛在檢索詞包括連詞、副詞和語氣詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710985840.1/2.html,轉載請聲明來源鉆瓜專利網。





