[發(fā)明專利]一種利用非結(jié)構(gòu)化文檔加速結(jié)構(gòu)化數(shù)據(jù)檢索的方法在審
| 申請?zhí)枺?/td> | 201810193383.7 | 申請日: | 2018-03-09 |
| 公開(公告)號: | CN108536742A | 公開(公告)日: | 2018-09-14 |
| 發(fā)明(設(shè)計)人: | 鄧晨昱 | 申請(專利權(quán))人: | 廣州慧睿思通信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市華學知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 511442 廣東省廣州市番禺*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 非結(jié)構(gòu)化文檔 加速結(jié)構(gòu) 數(shù)據(jù)檢索 自然語言分析 結(jié)構(gòu)化數(shù)據(jù) 排序 檢索 轉(zhuǎn)化 | ||
本發(fā)明公開了一種利用非結(jié)構(gòu)化文檔加速結(jié)構(gòu)化數(shù)據(jù)檢索的方法,利用將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化文檔的方法,達到提升其檢索速度的目的,并利用自然語言分析的方法,提升其排序準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機系統(tǒng)中結(jié)構(gòu)化數(shù)據(jù)的檢索技術(shù)領(lǐng)域,特別涉及一種利用非結(jié)構(gòu)化文檔加速結(jié)構(gòu)化數(shù)據(jù)檢索的方法。
背景技術(shù)
倒排索引:是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。通過倒排索引,可以根據(jù)單詞快速獲取包含這個單詞的文檔列表。
評分排序:根據(jù)檢索條件的不同,當檢索的關(guān)鍵字相關(guān)結(jié)果較多時,根據(jù)檢索結(jié)果記錄的相關(guān)性進行排序就顯得尤為重要。結(jié)合自然語言處理中的詞性分析技術(shù),可使得排序結(jié)果更接近人類思維所需結(jié)果。
目前針對結(jié)構(gòu)化數(shù)據(jù)檢索更多停留在加速或與非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一檢索方法層面,需要提供一種新的方法,對結(jié)構(gòu)化數(shù)據(jù)及其嵌套關(guān)聯(lián)的數(shù)據(jù)進行高效全文檢索,并能以接近人類思維的方式給出按相關(guān)性排序的結(jié)果集。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種利用非結(jié)構(gòu)化文檔加速結(jié)構(gòu)化數(shù)據(jù)檢索的方法,將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化文檔,達到提升其檢索速度的目的;并利用自然語言分析的方法,提升其排序準確性。
本發(fā)明的目的通過以下的技術(shù)方案實現(xiàn):
一種利用非結(jié)構(gòu)化文檔加速結(jié)構(gòu)化數(shù)據(jù)檢索的方法,通過將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化文檔進行檢索;設(shè)置帶有一定能量的詞語構(gòu)建非結(jié)構(gòu)化文檔,使得檢索結(jié)果可依照詞性能量參與相關(guān)性權(quán)重計算,進而優(yōu)化檢索結(jié)果的排序效果。
優(yōu)選的,具體步驟為:
1、搜集所有相關(guān)的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)及其關(guān)聯(lián)關(guān)系;
2、設(shè)計數(shù)據(jù)屬性間的關(guān)聯(lián)詞,以及關(guān)聯(lián)數(shù)據(jù)關(guān)系的關(guān)聯(lián)詞;
3、如同寫文章描述對象的方式,設(shè)計生成文檔的結(jié)構(gòu);
4、將生成的文檔輸入全文檢索引擎,建立倒排索引;
5、檢索結(jié)果時,根據(jù)步驟2所定義的關(guān)聯(lián)詞能量及對應(yīng)關(guān)鍵字的相關(guān)性權(quán)值,參與計算關(guān)聯(lián)度排序分數(shù)。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:
目前針對結(jié)構(gòu)化數(shù)據(jù)檢索更多停留在加速或與非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一檢索方法層面,而本發(fā)明既有加速檢索的效果,亦能改善檢索結(jié)果的排序。通過將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為非結(jié)構(gòu)化文檔的方式,可充分利用現(xiàn)有成熟的全文檢索引擎進行簡單高效的檢索。通過精心設(shè)計關(guān)聯(lián)詞,可以接近人類思維的方式進行結(jié)果相關(guān)度評判,更符合人類習慣。
附圖說明
圖1是實施例1方法的數(shù)據(jù)處理階段流程圖。
具體實施方式
下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。
實施例1
一種利用非結(jié)構(gòu)化文檔加速結(jié)構(gòu)化數(shù)據(jù)檢索的方法,通過將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化文檔進行檢索;通過設(shè)置帶有一定能量的詞語構(gòu)建非結(jié)構(gòu)化文檔,使得檢索結(jié)果可依照詞性能量參與相關(guān)性權(quán)重計算,進而優(yōu)化檢索結(jié)果的排序效果。具體步驟如下:
1、搜集所有相關(guān)的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)及其關(guān)聯(lián)關(guān)系;
2、設(shè)計數(shù)據(jù)屬性間的關(guān)聯(lián)詞,以及關(guān)聯(lián)數(shù)據(jù)關(guān)系的關(guān)聯(lián)詞;
3、如同寫文章描述對象的方式,設(shè)計生成文檔的結(jié)構(gòu);
4、將生成的文檔輸入全文檢索引擎,建立倒排索引;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州慧睿思通信息科技有限公司,未經(jīng)廣州慧睿思通信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810193383.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種非結(jié)構(gòu)化文檔的數(shù)據(jù)模塊轉(zhuǎn)化方法和裝置
- 一種結(jié)構(gòu)化文檔的生成方法和系統(tǒng)
- 基于元模型的非結(jié)構(gòu)化文檔的導入方法和導入裝置
- 用于非結(jié)構(gòu)化文檔搜索的方法及裝置
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 基于非結(jié)構(gòu)化文檔的知識提取方法及系統(tǒng)
- 一種基于區(qū)塊鏈技術(shù)的非結(jié)構(gòu)化文檔管理方法和裝置
- 一種數(shù)據(jù)處理方法及裝置
- 一種文檔的結(jié)構(gòu)轉(zhuǎn)換方法、裝置、存儲介質(zhì)及電子設(shè)備
- 從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化數(shù)據(jù)方法及裝置
- 一種數(shù)據(jù)檢索方法及系統(tǒng)
- 一種海量數(shù)據(jù)檢索方法及裝置、海量數(shù)據(jù)存儲方法及系統(tǒng)
- 一種用電信息數(shù)據(jù)檢索方法及裝置
- 數(shù)據(jù)檢索方法、裝置、服務(wù)器和存儲介質(zhì)
- 基于混合云數(shù)據(jù)聚合的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)
- 高并發(fā)數(shù)據(jù)檢索方法、裝置、設(shè)備及存儲介質(zhì)
- 一種數(shù)據(jù)檢索方法及裝置
- 數(shù)據(jù)檢索方法,裝置,存儲介質(zhì)及電子設(shè)備
- 一種產(chǎn)品檢索方法、裝置、系統(tǒng)及存儲介質(zhì)
- 一種基于移動通信數(shù)據(jù)的TB級數(shù)據(jù)快速檢索方法及系統(tǒng)





