[發明專利]圖文混合檢索方法、裝置、存儲介質、計算機設備有效
| 申請號: | 202011343386.8 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112148831B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 熊智;江琳;陳科第;張銓;王耿鑫;龐磊;郭志偉 | 申請(專利權)人: | 廣州華多網絡科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/51;G06F16/53;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 511442 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖文 混合 檢索 方法 裝置 存儲 介質 計算機 設備 | ||
1.一種圖文混合檢索方法,其特征在于,所述方法包括:
獲取用戶輸入的待檢索信息,若所述待檢索信息中同時包含文本數據和圖像數據,則將所述文本數據分詞后通過預先構建的倒排索引結構進行倒排索引查詢操作,得到第一候選集;
其中,所述倒排索引結構包括詞項和倒排記錄表,所述詞項通過事先收集到的網頁庫中的數據得到,所述倒排記錄表中記錄有通過所述倒排索引結構在數據庫中對各個詞項進行查詢后得到的與各個詞項對應的多個文檔;
將所述圖像數據輸入到預先訓練好的神經網絡模型中,得到與所述圖像數據對應的特征向量,對所述特征向量編碼處理后得到對應的詞項,通過所述倒排索引結構對所述詞項進行倒排索引查詢操作,得到第二候選集;
將所述第一候選集和所述第二候選集中的文檔進行合并,統計合并后的文檔在所述第一候選集或所述第二候選集中的命中次數,以及在所述第一候選集和所述第二候選集中的加權命中次數,根據統計結果對所述合并后的文檔進行排序,并將排序結果返回至展示頁面;
其中,所述加權命中次數中加權因子的設定是根據具體的應用場景人工手動調節得到的。
2.根據權利要求1所述的圖文混合檢索方法,其特征在于,將所述文本數據分詞后通過預先構建的倒排索引結構進行倒排索引查詢操作,得到第一候選集的步驟,包括:
將所述文本數據進行分詞后得到多個詞項,根據所述詞項構建倒排索引,并在所述倒排索引中進行查詢操作,得到與所述文本數據對應的第一候選集;
其中,所述第一候選集包含所述詞項在所述倒排索引中查詢得到的多個文檔。
3.根據權利要求1所述的圖文混合檢索方法,其特征在于,對所述特征向量編碼處理后得到對應的詞項,通過所述倒排索引結構對所述詞項進行倒排索引查詢操作,得到第二候選集的步驟,包括:
對所述特征向量進行取整操作,得到整型特征向量,將所述整型特征向量映射為文本向量后進行分組編碼,得到所述圖像數據對應的多個特征編碼;
根據所述特征編碼構建倒排索引,并在所述倒排索引中進行查詢操作,得到與所述圖像數據對應的第二候選集;
其中,所述第二候選集包含所述特征編碼在所述倒排索引中查詢得到的多個文檔。
4.根據權利要求1所述的圖文混合檢索方法,其特征在于,統計合并后的文檔在所述第一候選集或所述第二候選集中的命中次數,以及在所述第一候選集和所述第二候選集中的加權命中次數的步驟,包括:
若合并后的文檔為所述第一候選集中的文檔,則統計所述文檔在所述第一候選集中的命中次數;
若合并后的文檔為所述第二候選集中的文檔,則統計所述文檔在所述第二候選集中的命中次數;
若合并后的文檔為所述第一候選集和所述第二候選集中的文檔,則統計所述文檔在所述第一候選集和所述第二候選集中的加權命中次數。
5.根據權利要求4所述的圖文混合檢索方法,其特征在于,若合并后的文檔為所述第一候選集和所述第二候選集中的文檔,則統計所述文檔在所述第一候選集和所述第二候選集中的加權命中次數的步驟,包括:
若合并后的文檔為所述第一候選集和所述第二候選集中的文檔,則統計所述文檔在所述第一候選集中的第一命中次數,以及所述文檔在所述第二候選集中的第二命中次數;
獲取加權因子,并利用所述加權因子對所述第一命中次數和所述第二命中次數進行加權融合,得到加權命中次數。
6.根據權利要求1所述的圖文混合檢索方法,其特征在于,所述神經網絡模型的訓練方法包括:
獲取數據庫中的樣本數據,并將所述樣本數據劃分為訓練集和測試集,其中,所述樣本數據包括圖像數據及對應的標簽類別;
利用所述訓練集中的圖像數據對神經網絡模型進行訓練,得到所述圖像數據對應的特征向量,根據所述特征向量和所述標簽類別調整所述神經網絡模型的參數,直到調整后的神經網絡模型收斂;
利用所述測試集中的樣本數據對收斂后的神經網絡模型進行分類效果驗證,并調整所述神經網絡模型的超參數,直到得到分類效果最優的神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華多網絡科技有限公司,未經廣州華多網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011343386.8/1.html,轉載請聲明來源鉆瓜專利網。





