[發明專利]一種相似內容確定方法和裝置在審
| 申請號: | 202211649784.1 | 申請日: | 2022-12-21 |
| 公開(公告)號: | CN116340551A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 郝錕鵬;龐鋒;賈遂賓 | 申請(專利權)人: | 微夢創科網絡科技(中國)有限公司 |
| 主分類號: | G06F16/48 | 分類號: | G06F16/48;G06F18/22;G06F18/25 |
| 代理公司: | 北京卓嵐智財知識產權代理有限公司 11624 | 代理人: | 張旭東 |
| 地址: | 100193 北京市海淀區東北旺西路中關村*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相似 內容 確定 方法 裝置 | ||
本發明實施例提供一種相似內容確定方法,包括:按內容類別從目標內容中獲取每種內容類別各自對應的至少一個目標子內容;針對每種內容類別,將所述內容類別所對應的至少一個目標子內容向量化,得到所述內容類別對應的至少一個目標子內容向量;根據候選相似內容集合中候選相似內容的每種內容類別對應的至少一個候選相似子內容向量、以及所述目標內容的每種內容類別對應的至少一個目標子內容向量,確定所述候選相似內容與所述目標內容之間的多模態相似度;根據候選相似內容集合中每個所述候選相似內容與所述目標內容之間的多模態相似度,從所述候選相似內容集合中確定與所述目標內容相匹配的相似內容。
技術領域
本發明涉及搜索領域,尤其涉及一種相似內容確定方法和裝置。
背景技術
目前主流相似計算技術多基于視頻相似、文本相似、圖片相似等單維度計算,在所有候選集中僅考察目標維度是否存在相似內容,若無則判斷為非重復物料;
現有技術中,也存在部分多媒體內容相似計算技術,但也僅是基于圖文維度,圖、文分別進行相似度計算,對圖片對相似判斷設定閾值,相似圖片對達到一定數量才認定為圖片內容相似,而后再考慮文本內容相似性,視頻內容則單獨進行相似判斷。
在實現本發明過程中,申請人發現現有技術中至少存在如下問題:
在進行內容相似計算時,將各相似維度單獨計算相似度并單獨進行相似判斷導致誤判率高的問題。
發明內容
本發明實施例提供一種相似內容確定方法和裝置,也是一種基于多模態相似內容確定方法和裝置,解決了在進行內容相似計算時,將各相似維度單獨計算相似度并單獨進行相似判斷導致誤判率高的問題。
為達上述目的,一方面,本發明實施例提供一種相似內容確定方法,包括:
按內容類別從目標內容中獲取每種內容類別各自對應的至少一個目標子內容;
針對每種內容類別,將所述內容類別所對應的至少一個目標子內容向量化,得到所述內容類別對應的至少一個目標子內容向量;
根據候選相似內容集合中候選相似內容的每種內容類別對應的至少一個候選相似子內容向量、以及所述目標內容的每種內容類別對應的至少一個目標子內容向量,確定所述候選相似內容與所述目標內容之間的多模態相似度;
根據候選相似內容集合中每個所述候選相似內容與所述目標內容之間的多模態相似度,從所述候選相似內容集合中確定與所述目標內容相匹配的相似內容;
其中,所述候選相似內容集合包括至少一個候選相似內容;按所述內容類別從每個候選相似內容中獲取每種內容類別各自對應的至少一個候選相似子內容,針對每個候選相似內容的每種內容類別,將所述內容類別所對應的至少一個候選相似子內容向量化,得到所述內容類別對應的至少一個候選相似子內容向量。
另一方面,本發明實施例提供一種相似內容確定裝置,包括:
目標子內容獲取單元,用于按內容類別從目標內容中獲取每種內容類別各自對應的至少一個目標子內容;
目標子內容向量化單元,用于針對每種內容類別,將所述內容類別所對應的至少一個目標子內容向量化,得到所述內容類別對應的至少一個目標子內容向量;
多模態相似度確定單元,用于根據候選相似內容集合中候選相似內容的每種內容類別對應的至少一個候選相似子內容向量、以及所述目標內容的每種內容類別對應的至少一個目標子內容向量,確定所述候選相似內容與所述目標內容之間的多模態相似度;
相似內容確定單元,用于根據候選相似內容集合中每個所述候選相似內容與所述目標內容之間的多模態相似度,從所述候選相似內容集合中確定與所述目標內容相匹配的相似內容;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微夢創科網絡科技(中國)有限公司,未經微夢創科網絡科技(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211649784.1/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





