[發明專利]識別目標文字內容和原圖相關性的方法、系統、裝置、終端、及存儲介質有效
| 申請號: | 201711287706.0 | 申請日: | 2017-12-07 |
| 公開(公告)號: | CN108228720B | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 鄒啟波;曹歡歡 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/583 |
| 代理公司: | 北京天達共和知識產權代理事務所(特殊普通合伙) 11586 | 代理人: | 關剛 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標文字 存儲介質 網頁 文本 終端 圖像搜索引擎 圖片 搜索 | ||
本發明提供識別目標文字內容和原圖相關性的方法、系統、裝置、終端、及存儲介質。至少包括以下步驟:步驟1:通過圖像搜索引擎搜索原圖,得到至少一個網頁,所述至少一個網頁包含所述原圖或與所述原圖類似的圖片;步驟2:獲取所述至少一個網頁中的圖片相關文本;步驟3:計算所述目標文字內容和所述圖片相關文本之間的相關性結果;步驟4:根據所述相關性結果,得到所述目標文字內容和所述原圖之間的相關性。
技術領域
本發明涉及識別目標文字內容和原圖相關性的方法、系統、裝置、終端、及存儲介質。
背景技術
大部分網絡社區的內容排序算法會讓內容的受歡迎程度影響其排名。比如在BBS里,過去一段時間內被瀏覽和評論最多的帖子在帖子列表里排序會比較高。再比如在知識問答社區(如悟空問答和知乎),給定一個問題,用戶的答案被其它用戶點贊越多,在所有答案中的排名也會越高。這是一種樸素的,符合用戶需求的算法,但是這種算法容易使圖文無關內容不當獲利。所謂圖文無關內容,是指用戶在發布文字內容的時候上傳一張特別吸引人眼球的,但是和文字內容沒有任何關系的圖片。比如回答歷史問題的時候除了以文字內容回答之外還放一張美女圖片(所謂福利圖),這樣的回答往往點贊率還不低,但是對于其它認真回答的問題就不太公平。
還有一類內容會把廣告信息作為圖片和文字內容一起發布出來,文字內容是正常的。這類內容也是一種典型的圖文無關內容,這種內容的發布對平臺的用戶體驗不好,也侵害了網絡社區運營方的商業利益(大部分網絡社區禁止用戶私自發布廣告,廣告的發布需要通過社區運營方在制定位置發布,需要通過審查有沒有違法內容,并繳納一定費用)。
作為網絡社區管理者,希望能夠自動識別出用戶發布內容中是否存在上述的圖文無關內容,以便能夠及時對該圖文無關內容采取刪除、屏蔽、禁止回復等措施以避免或減小其不良影響。
以往,針對圖文無關內容,存在以下識別方法。方法一:比如色情圖片識別,可以識別出有色情意味的圖片,如果用戶發布的文字內容沒有色情詞,就可以認定為圖文無關。方法二:比如OCR(Optical Character Recognition)技術,可以從圖片中提取出現在圖片中的文字信息,然后通過比對提取的文字信息和用戶發布的文字內容,確認是否圖文無關。
此外,在實際應用中,特別是大型的網絡社區,由于用戶發布的圖文無關內容五花八門,所以需要一種通用方法。作為較容易想到的通用方法是,方法三:用近年來不斷成熟的圖像分類技術對圖像分類然后再用文本分類器判別用戶發布的文字內容是否和圖片屬于同一類。
發明內容
現有的上述圖文無關的方法存在以下問題。方法一僅能適用于有限類型的圖片,對于特定類型以外的圖片無法識別。方法二僅能適用于圖片中包含文字信息的圖片,對于不包含文字信息的圖片無法識別。
因此,現有的圖文無關內容的識別方法往往基于圖像識別技術并針對某一類問題。
方法三雖然意圖針對所有類型圖文通用地進行無關識別,但是,實際中缺乏一個和圖像分類對應的文本分類體系,例如,典型的圖像分類標簽的例子包括:【猴子】、【貓】、【人物】,而文字內容的分類標簽的例子包括:【歷史】、【財經】、【股票】、【互聯網】,導致這種方法理論上可行,實際上效果很差。
因此,目前尚沒有一種通用的,能有效識別所有類型圖文無關內容的方法。
本發明鑒于上述的問題,其目的在于提供一種基于圖像搜索引擎的識別目標文字內容和原圖相關性的方法、系統、裝置、終端、及存儲介質,在實際中基本可以解決所有類型的圖文無關問題,而且識別的準確率非常高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711287706.0/2.html,轉載請聲明來源鉆瓜專利網。





