[發明專利]圖文混合檢索方法、裝置、存儲介質、計算機設備有效
| 申請號: | 202011343386.8 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112148831B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 熊智;江琳;陳科第;張銓;王耿鑫;龐磊;郭志偉 | 申請(專利權)人: | 廣州華多網絡科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/51;G06F16/53;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 511442 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖文 混合 檢索 方法 裝置 存儲 介質 計算機 設備 | ||
本發明涉及一種圖文混合檢索方法、裝置、存儲介質、計算機設備,所述圖文混合檢索方法包括:獲取用戶輸入的待檢索信息,若所述待檢索信息中同時包含文本數據和圖像數據,則將所述文本數據分詞后進行倒排索引查詢操作,得到第一候選集;將所述圖像數據輸入到預先訓練好的神經網絡模型中,得到與所述圖像數據對應的特征向量,對所述特征向量編碼處理后進行倒排索引查詢操作,得到第二候選集;將所述第一候選集和所述第二候選集中的文檔進行合并,統計合并后的文檔在所述第一候選集和/或所述第二候選集中的命中次數,根據統計結果對所述合并后的文檔進行排序,并將排序結果返回至展示頁面;提升了檢索準確度的同時,有效降低了系統的維護成本。
技術領域
本發明涉及信息檢索技術領域,尤其涉及一種圖文混合檢索方法、裝置、存儲介質、計算機設備。
背景技術
以往的檢索系統主要包括單模態檢索和跨模態檢索兩種方式,不管是單模態檢索還是跨模態檢索,其查詢數據僅包含一種模態的數據。然而,近年來,隨著移動互聯網的發展,人們的查詢需求也發生了變化,逐漸產生了新的檢索需求,混合模態檢索就是其中一種?;旌夏B檢索指的是輸入檢索系統查詢數據時包含多種模態的數據的檢索,例如,在教育領域,輸入查詢數據時一般會包含一段題目的文本描述和相關的圖形圖像,此時,檢索系統需要返回同時與文本描述以及圖形圖像相似的題目。
現階段,對于混合模態檢索的相關研究和技術相對較少。通常情況下,最直觀地做法是對文本和圖像建立兩套檢索模型,對于一個給定的文本圖像查詢對,將文本和圖像分別在其單模態檢索系統中查詢,最后取兩者的交集,并返回最終的結果。然而,這種方法存在兩個問題:一是對于文本和圖像的檢索需要分別維護一套索引系統,當數據量較大時,維護兩套索引系統所付出的存儲代價和計算代價是非常高的;二是通過文本索引和圖像索引檢索得到候選圖像文本對集合后,很難找到一個排序策略能夠綜合兩套檢索結果進行排序,并得到最終的查詢結果。
發明內容
本發明的目的旨在至少能解決上述的技術缺陷之一,特別是現有技術中進行混合模態檢索時使用多套檢索模型分別進行檢索,不僅提高了維護成本,還降低了檢索準確度的技術缺陷。
本發明提供了一種圖文混合檢索方法,所述方法包括:
獲取用戶輸入的待檢索信息,若所述待檢索信息中同時包含文本數據和圖像數據,則將所述文本數據分詞后進行倒排索引查詢操作,得到第一候選集;
將所述圖像數據輸入到預先訓練好的神經網絡模型中,得到與所述圖像數據對應的特征向量,對所述特征向量編碼處理后進行倒排索引查詢操作,得到第二候選集;
將所述第一候選集和所述第二候選集中的文檔進行合并,統計合并后的文檔在所述第一候選集和/或所述第二候選集中的命中次數,根據統計結果對所述合并后的文檔進行排序,并將排序結果返回至展示頁面。
可選地,將所述文本數據分詞后進行倒排索引查詢操作,得到第一候選集的步驟,包括:
將所述文本數據進行分詞后得到多個詞項,根據所述詞項構建倒排索引,并在所述倒排索引中進行查詢操作,得到與所述文本數據對應的第一候選集;
其中,所述第一候選集包含所述詞項在所述倒排索引中查詢得到的多個文檔。
可選地,對所述特征向量編碼處理后進行倒排索引查詢操作,得到第二候選集的步驟,包括:
對所述特征向量進行取整操作,得到整型特征向量,將所述整型特征向量映射為文本向量后進行分組編碼,得到所述圖像數據對應的多個特征編碼;
根據所述特征編碼構建倒排索引,并在所述倒排索引中進行查詢操作,得到與所述圖像數據對應的第二候選集;
其中,所述第二候選集包含所述特征編碼在所述倒排索引中查詢得到的多個文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華多網絡科技有限公司,未經廣州華多網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011343386.8/2.html,轉載請聲明來源鉆瓜專利網。





