[發明專利]識別目標文字內容和原圖相關性的方法、系統、裝置、終端、及存儲介質有效
| 申請號: | 201711287706.0 | 申請日: | 2017-12-07 |
| 公開(公告)號: | CN108228720B | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 鄒啟波;曹歡歡 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/583 |
| 代理公司: | 北京天達共和知識產權代理事務所(特殊普通合伙) 11586 | 代理人: | 關剛 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標文字 存儲介質 網頁 文本 終端 圖像搜索引擎 圖片 搜索 | ||
1.一種識別目標文字內容和原圖相關性的方法,其特征在于,
至少包括以下步驟:
步驟1:通過圖像搜索引擎搜索原圖,得到至少一個網頁,所述至少一個網頁包含所述原圖或與所述原圖類似的圖片;
步驟2:獲取所述至少一個網頁中的圖片相關文本;
步驟3:計算所述目標文字內容和所述圖片相關文本之間的相關性結果;
步驟4:根據所述相關性結果,得到所述目標文字內容和所述原圖之間的相關性,
所述原圖是由用戶上傳的圖片,所述目標文字內容是上傳所述原圖時上傳的文字,所述圖片相關文本是從所述至少一個網頁中提取出的文字摘要信息,
在所述步驟3中,選擇以下計算方法之一來計算所述相關性:
Relevance(W,WG)=avg(F(W,WGi))
Relevance(W,WG)=max(F(W,WGi))
Relevance(W,WG)=avg(max(F(W,WGi)),min(F(W,WGi)))
其中,W是所述用戶上傳文字內容,WGi是在所述步驟2中獲取的所述至少一個網頁中提取出的文字摘要信息,F是所述相關性計算模型。
2.如權利要求1所述的識別目標文字內容和原圖相關性的方法,其特征在于,
在所述步驟2中,采用圖像搜索引擎的搜索結果以獲取文字摘要信息。
3.如權利要求1所述的識別目標文字內容和原圖相關性的方法,其特征在于,
在所述步驟2中,通過對網頁結果進行內容提取以自行獲得文字摘要信息。
4.如權利要求1至3的任何一項所述的識別目標文字內容和原圖相關性的方法,其特征在于,
所述步驟3中采用VSM模型、BM25模型、基于深度學習的文本相關性模型之中的任意之一模型,或者所述VSM模型、BM25模型、基于深度學習的文本相關性模型的任意模型的組合。
5.如權利要求1至3的任何一項所述的識別目標文字內容和原圖相關性的方法,其特征在于,
在所述步驟1中,通過圖像搜索引擎接口模塊在所述圖像搜索引擎中輸入原圖。
6.如權利要求5所述的識別目標文字內容和原圖相關性的方法,其特征在于,
所述圖像搜索引擎接口模塊通過輸入圖片的網絡地址或者圖片文件來上傳圖片。
7.一種識別目標文字內容和原圖相關性的系統,其特征在于,
該系統至少包括以下模塊:
搜索模塊,其通過圖像搜索引擎搜索原圖,得到至少一個網頁,所述至少一個網頁包含所述原圖或與所述原圖類似的圖片;
圖片相關文本獲取模塊,其獲取所述至少一個網頁中的圖片相關文本;
相關性計算模塊,其計算所述目標文字內容和所述圖片相關文本之間的相關性結果;
識別模塊,其根據所述相關性結果,得到所述目標文字內容和所述原圖之間的相關性,
所述模塊是應用軟件或固件,
所述原圖是由用戶上傳的圖片,所述目標文字內容是上傳所述原圖時上傳的文字,所述圖片相關文本是從所述至少一個網頁中提取出的文字摘要信息,
在所述相關性計算模塊中,選擇以下計算方法之一來計算所述相關性:
Relevance(W,WG)=avg(F(W,WGi))
Relevance(W,WG)=max(F(W,WGi))
Relevance(W,WG)=avg(max(F(W,WGi)),min(F(W,WGi)))
其中,W是所述用戶上傳的文字內容,WGi是在所述圖片相關文本獲取模塊所獲取的所述至少一個網頁中提取出的文字摘要信息,F是所述相關性計算模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711287706.0/1.html,轉載請聲明來源鉆瓜專利網。





