[發明專利]挖掘圖片中的主題關鍵詞的方法和設備有效
| 申請號: | 201210246688.2 | 申請日: | 2012-07-16 |
| 公開(公告)號: | CN103544186B | 公開(公告)日: | 2017-03-01 |
| 發明(設計)人: | 孫健;夏迎炬;潘屹峰;葛付江;楊宇航;張明明;陳思源;何源;孫俊;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 朱勝,王娜麗 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 挖掘 圖片 中的 主題 關鍵詞 方法 設備 | ||
技術領域
本發明涉及信息處理領域,具體涉及挖掘圖片中的主題關鍵詞的方法和設備。
背景技術
圖片中的文字往往對了解該圖片的內容非常重要。例如,廣告圖片中文本信息對客戶了解廣告內容具有重要作用。利用字符識別(例如,OCR識別)的結果和網絡信息可以更加全面地提取廣告的文本內容,通過挖掘這些信息并提取廣告的主題,將向客戶推薦其擴展應用或服務。
由于字符識別技術不能鎖定代表圖片(例如,廣告圖片)主題的關鍵詞,所以借助互聯網大量的文本信息,驗證并提取廣告圖像中的文本。使用字符識別結果中關鍵詞檢索,文本聚類和匹配等數據挖掘手段,可獲取和廣告相關的主題網頁(檢索的網頁和廣告本身都表達一個內容)。然而由于字符識別結果的具有一定不完整性或不正確性,導致部分關鍵詞檢索出的網頁可能具有發散性,生成噪音數據,而且如果關鍵詞搜索的網頁發散,其輸入的關鍵詞的正確識別結果將被丟棄,不能召回。
因此,需要一種能夠解決上述問題的技術。
發明內容
在下文中給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
本發明的一個主要目的在于,提供一種挖掘圖片中的主題關鍵詞的方法和設備。
根據本發明的一個方面,提供了一種挖掘圖片中的主題關鍵詞的方法包括:初始檢索詞識別步驟,識別圖片中的關鍵詞作為初始的檢索詞;候選關鍵詞提取步驟,利用檢索詞檢索與圖片相關的主題網頁以從中提取候選關鍵詞;檢索詞選擇步驟,根據候選關鍵詞和搜索候選關鍵詞所用的檢索詞之間的鏈接關系,從候選關鍵詞中選擇一部分候選關鍵詞作為下次的候選關鍵詞提取步驟所用的檢索詞;以及重復候選關鍵詞提取步驟和檢索詞選擇步驟直到滿足預定條件。
根據本發明的另一個方面,提供了一種挖掘圖片中的主題關鍵詞的設備,包括:初始檢索詞識別模塊,被配置用于識別圖片中的關鍵詞作為初始的檢索詞;候選關鍵詞提取模塊,被配置用于利用檢索詞搜索與圖片相關的主題網頁以從中提取候選關鍵詞;檢索詞選擇模塊,被配置用于根據候選關鍵詞和搜索候選關鍵詞所用的檢索詞之間的鏈接關系,從候選關鍵詞中選擇一部分候選關鍵詞作為候選關鍵詞提取模塊下次搜索候選關鍵詞所用的檢索詞;以及控制模塊,被配置用于控制候選關鍵詞提取模塊和檢索詞選擇模塊循環操作直到滿足預定條件。
另外,本發明的實施例還提供了用于實現上述方法的計算機程序。
此外,本發明的實施例還提供了至少計算機可讀介質形式的計算機程序產品,其上記錄有用于實現上述方法的計算機程序代碼。
通過以下結合附圖對本發明的最佳實施例的詳細說明,本發明的這些以及其他優點將更加明顯。
附圖說明
參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。
圖1是示出根據本發明實施例的挖掘圖片中的主題關鍵詞的方法的流程圖;
圖2是示出根據本發明的一個示例的挖掘圖片中的主題關鍵詞的方法的示意圖;
圖3是示出通過特征融合來選擇候選關鍵詞的示意圖;
圖4是示出根據本發明的圖片的一個示例;
圖5是示出根據本發明的搜索網頁的一個示例;
圖6是示出檢索詞和候選關鍵詞的鏈接關系的示意圖;
圖7是示出根據本發明的一個實施例的挖掘圖片中的主題關鍵詞的設備的框圖;
圖8是示出檢索詞選擇模塊的配置的框圖;
圖9是示出根據本發明的另一個實施例的挖掘圖片中的主題關鍵詞的設備的框圖;
圖10是示出候選關鍵詞提取模塊的配置的框圖;以及
圖11是示出可以用于實施本發明的挖掘圖片中的主題關鍵詞的方法和設備的計算設備的舉例的結構圖。
具體實施方式
下面參照附圖來說明本發明的實施例。在本發明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。應當注意,為了清楚的目的,附圖和說明中省略了與本發明無關的、本領域普通技術人員已知的部件和處理的表示和描述。
圖1是示出根據本發明實施例的挖掘圖片中的主題關鍵詞的方法100的流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210246688.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種泵的新型密封結構
- 下一篇:存儲器儲存裝置、其存儲器控制器與數據寫入方法





