[發明專利]一種從文檔集中快速提取有用數據的方法有效
| 申請號: | 201710985840.1 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN107861943B | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 劉軍旗;蘇愛軍;唐輝明;吳沖龍;姚夢輝;滕偉福;王亮清;封瑞雪;趙劍雄;陳根深;鄒宗興;王菁莪;曾雯;張抒 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/903 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 付春霞 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 集中 快速 提取 有用 數據 方法 | ||
1.一種從文檔集中快速提取有用數據的方法,其特征在于:包括以下步驟:
步驟1:使用中文分詞工具,對文檔集中的每個文檔進行包括分詞、詞性標注及分詞篩選在內的預處理,剔除經分詞和詞性標注后的詞中的非潛在檢索詞,所述非潛在檢索詞包括連詞、副詞和語氣詞,得到每個文檔中的潛在檢索詞和該文檔中的每個段落中的潛在檢索詞,所述潛在檢索詞包括名詞、動詞和數量詞;
步驟2:對所述文檔集中的每個文檔中的每個段落中的潛在檢索詞進行詞頻統計,得到每個段落中每個潛在檢索詞的詞頻統計結果,基于段落的詞頻統計結果得到相應的文檔整體的潛在檢索詞的詞頻統計結果;
步驟3:采用非結構化數據庫技術存儲經步驟1和步驟2處理后的文檔集,對所述文檔集中的每個文檔建立一個存儲集,每個存儲集的存儲內容包括:{文檔的名稱、文檔的內容、文檔中每個段落的潛在檢索詞及每個所述潛在檢索詞的詞頻統計結果、文檔的潛在檢索詞及每個所述潛在檢索詞的詞頻統計結果、存儲時間},使所述文檔集中所有文檔轉化為非結構化數據庫中的一個有序集合;
步驟4:輸入檢索詞,在具有有序集合的非結構化數據庫中實施檢索;
步驟5:根據檢索詞與潛在檢索詞的匹配,以及潛在檢索詞的詞頻統計結果,輸出檢索結果,檢索結果的輸出內容包括至少一個結果集,每一所述結果集的內容包括:{文檔的名稱、存儲時間、文檔中具有檢索詞的每個段落的內容},所述結果集的內容還包括:{存儲位置、具有檢索詞的每個段落的檢索詞的數量},且根據文檔的潛在檢索詞的詞頻統計結果降序排列所述結果集,根據文檔的潛在檢索詞的詞頻統計結果降序排列所述結果集,每一所述結果集中,根據文檔中的每個段落的段落順序排列具有檢索詞的段落。
2.如權利要求1所述的從文檔集中快速提取有用數據的方法,其特征在于:所述文檔集為地質災害大文檔集。
3.如權利要求1所述的從文檔集中快速提取有用數據的方法,其特征在于:所述中文分詞工具為分詞詞典,步驟1中分詞時采用的分詞算法為結巴分詞、Word分詞或盤古分詞算法。
4.如權利要求1所述的從文檔集中快速提取有用數據的方法,其特征在于:步驟2中進行詞頻統計的方法為TF-IDF方法,所述非結構化數據庫為MongoDB、HBase或Redis數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710985840.1/1.html,轉載請聲明來源鉆瓜專利網。





