[發(fā)明專利]一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法有效
| 申請?zhí)枺?/td> | 202110285108.X | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN112905644B | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設計)人: | 徐小良;王夢召;呂凌威 | 申請(專利權(quán))人: | 杭州電子科技大學 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/22;G06F16/28 |
| 代理公司: | 浙江千克知識產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 結(jié)構(gòu) 數(shù)據(jù) 混合 搜索 方法 | ||
本發(fā)明公開了一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法。該方法首先將數(shù)據(jù)集中每一個實體所包含的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)分別向量化得到包含結(jié)構(gòu)化向量和非結(jié)構(gòu)化向量的實體向量;其次基于結(jié)構(gòu)化向量和非結(jié)構(gòu)化向量相似性組合構(gòu)建融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)近鄰圖;然后將查詢實體所包含的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)通過向量化得到包含結(jié)構(gòu)化向量和非結(jié)構(gòu)化向量的混合查詢向量;最后混合查詢向量在融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)近鄰圖上通過貪婪算法執(zhí)行混合搜索得到查詢實體的最近鄰。本發(fā)明實現(xiàn)了同時對非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)進行搜索的混合搜索,較之于當前的兩種分離的索引系統(tǒng)效率得到較大提升。
技術(shù)領(lǐng)域
本發(fā)明涉及近似最近鄰搜索領(lǐng)域,具體涉及一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法。
背景技術(shù)
各種互聯(lián)網(wǎng)和智能化應用產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù)(圖片,視頻,語音等)和結(jié)構(gòu)化數(shù)據(jù)(數(shù)字、符號、標簽等),從大規(guī)模數(shù)據(jù)中高效查詢獲取有用信息是各種人工智能應用的一項核心技術(shù)。基于關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)查詢已經(jīng)很成熟并被廣泛應用,非結(jié)構(gòu)化數(shù)據(jù)搜索隨著深度學習向量化技術(shù)的發(fā)展也正在快速應用于各種場景。隨著對查詢結(jié)果一致性越來越高的要求,很多場景都需要同時執(zhí)行結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的搜索,即混合搜索。
混合搜索方法是目前近似最近鄰搜索領(lǐng)域的一個研究熱點,在電子商務等平臺得到了實際應用。但是,目前的混合搜索系統(tǒng)主要通過對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分別執(zhí)行查詢,然后合并它們的查詢結(jié)果來實現(xiàn)的。這種混合搜索方法存在查詢速度慢和查詢結(jié)果精度低的問題。當前迫切需要一個能夠同時執(zhí)行結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)查詢且滿足查詢精度需求的高效混合搜索解決方案。
發(fā)明內(nèi)容
本發(fā)明提出了一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法,這種方法實現(xiàn)了同時對非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)進行搜索的混合搜索,較之于當前的兩種分離的索引系統(tǒng)效率得到較大提升。
本發(fā)明所提出的一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法具體內(nèi)容如下:
(1)將數(shù)據(jù)集中每一個實體所包含的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)分別向量化得到包含結(jié)構(gòu)化向量和非結(jié)構(gòu)化向量的實體向量;
(2)基于結(jié)構(gòu)化向量和非結(jié)構(gòu)化向量相似性組合構(gòu)建融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)近鄰圖;
(3)將查詢實體所包含的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)通過與(1)相同的方式向量化得到包含結(jié)構(gòu)化向量和非結(jié)構(gòu)化向量的混合查詢向量;
(4)混合查詢向量在融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)近鄰圖上通過貪婪算法執(zhí)行混合搜索得到查詢實體的最近鄰。
其中,步驟(1)將數(shù)據(jù)集S中每一個實體ei所包含的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)分別向量化得到包含非結(jié)構(gòu)化向量αi和結(jié)構(gòu)化向量βi的實體向量(αi,βi)。其中,數(shù)據(jù)集S表示為:
S={ei|i=1,2,...,N}
其中ei為數(shù)據(jù)集中的第i個實體,N為數(shù)據(jù)集中實體個數(shù)。
非結(jié)構(gòu)化向量αi表示為:
其中m為非結(jié)構(gòu)化向量的維數(shù),為非結(jié)構(gòu)化向量αi在第j維的取值。
結(jié)構(gòu)化向量βi表示為:
其中n為結(jié)構(gòu)化向量的維數(shù),結(jié)構(gòu)化向量βi在第j維的取值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學,未經(jīng)杭州電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110285108.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





