[發明專利]一種基于倒排索引的評估類文檔不定長詞句的查詢方法有效
| 申請號: | 201811153438.8 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN109284352B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 沈毅;趙虹博;楊朔;王宏志;張淼 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/289;G06F40/242 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 索引 評估 文檔 定長 詞句 查詢 方法 | ||
一種基于倒排索引的評估類文檔不定長詞句的查詢方法,它涉及數據科學領域的索引方法以及NLP領域的分詞方法,解決了評估類文檔不定長詞句的查詢問題。本發明的步驟為:一、對待查詢文檔進行數據預處理,利用jieba分詞方法進行分詞處理,得到單詞詞典與詞頻信息;二、基于完全重建策略的倒排索引原理建立自適應倒排表;三、結合待查找不定長詞句的信息,通過自適應倒排表索引詞句中各個單詞位置信息,識別不定長詞句位置信息并索引其所在段落,來完成評估類文檔不定長詞句的查詢功能。本發明的基本思想是對文本數據進行分詞,建立倒排索引,進而實現快速搜索不定長詞句,從而實現對評估類文檔的查詢功能。應用場景廣泛,因而具有很高的社會經濟價值。
技術領域
本發明涉及數據科學領域的數據索引方法以及自然語言處理領域的分詞方法,具體涉及一種基于倒排索引的評估類文檔不定長詞句的查詢方法。
背景技術
隨著信息時代數據量的爆炸式增長,人們發現海量數據的的背后隱藏著巨大的數據價值,這吸引了越來越多的研究人員對數據進行研究。對于結構化數據的數據價值,應用傳統或者現代的數據挖掘手段都可以得到較好的結果,但是對于非結構化數據,如海量評估類文本報告等數據的數據價值,則需要現代數據挖掘手段以及自然語言處理等領域的方法來提取信息價值。評估類文檔的特點是數字評價及文字評價并存,且沒有明確的評價準則或評價公式,以非結構化數據的形式廣泛存在于教育機構、研究機構及統計機構等數據庫中。目前,多數情況下是使用人工篩選的方式對海量文本數據來檢索并提取所需信息,這不但需要耗費大量的人力資源還需要大量的時間成本。本專利提供的方法能夠對大量文本數據針對其評估類文檔建立檢索詞庫,可以在短時間內查找所需信息,從而可以大幅改善改進評估機制體系。
利用分詞技術和倒排索引原理進行詞匯檢索在國內外已經取得了一些研究成果,但針對評估類文檔不定長詞句的快速檢索技術的研究較少,仍處于探索階段。中文分詞是指將文本數據中的字序列切分成若干個單獨的詞的過程。目前中文分詞主要思想可以分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。倒排索引源于實際應用中需要根據屬性的值來查找記錄,通過建立倒排表,其中每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引。倒排索引實現的步驟包括獲取關鍵字、建立倒排索引、索引實現和壓縮算法。
目前存在的檢索技術都是針對大規模數據的快速檢索方法,但是為了具有普適性而對專業領域進行檢索時,往往會查詢不到合適的結果,本發明通過對倒排索引結構進行調整,不僅能夠對所需信息進行快速檢索,確保了查詢結果的快速性。此外,還能結合評估類文檔的數據庫對不定長的專業詞句進行檢索,保證了查詢結果的準確性。這些創新性方法可以幫助我們在評估類文本的非結構化數據中快速準確地實現挖掘檢索從而得到理想的查詢結果。
發明內容
由于目前非結構化文本數據量逐年提高,傳統人工檢索評估類文檔詞句信息的方法需要耗費大量人力與時間成本,而且準確率與完整度不高。本發明的目的在于克服現有人工檢索評估類文檔詞句信息的不足,提供一種基于倒排索引的評估類文檔不定長詞句的查詢方法,從而可以快速準確地從文本數據中檢索信息,挖掘數據價值。
本發明的目的是通過以下技術方案實現的:首先,將待查詢文檔進行數據預處理,將文檔數據統一為純文本格式存儲,并跟據評估類文檔常用詞庫來添加自定義詞典和停用詞表,利用jieba分詞方法進行分詞處理,得到單詞詞典與詞頻信息;然后,基于完全重建策略的倒排索引原理建立自適應倒排表和倒排生成文件,提取分詞位置、頻率等信息;最后,結合所需要查找不定長詞句的信息,通過倒排表索引詞句中各個分詞位置信息,基于字符串匹配方法識別不定長詞句位置信息并索引其所在段落,來完成評估類文檔不定長詞句的查詢功能。
本發明的流程圖如圖1所示,具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811153438.8/2.html,轉載請聲明來源鉆瓜專利網。





