[發明專利]利用計算機的基于多媒體分析的新聞人物檢索方法無效
| 申請號: | 201010605832.8 | 申請日: | 2010-12-15 |
| 公開(公告)號: | CN102024056A | 公開(公告)日: | 2011-04-20 |
| 發明(設計)人: | 盧漢清;李澤超;劉靜 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 計算機 基于 多媒體 分析 新聞 人物 檢索 方法 | ||
技術領域
本發明屬于圖像處理及信息處理技術領域,涉及多媒體內容分析與理解的技術處理,具體涉及利用計算機的基于多媒體分析的新聞人物檢索的架構。
背景技術
隨著信息技術的發展和網絡的全球化,在線新聞越來越多并且也越來越受歡迎。因此,有效地管理大量的來自多個網站的新聞文檔是非常有必要的。
一篇新聞文檔通常定義為由特定人或者機構發起的、發生在某個時間和地點的特定事件。也就是說,對應一個特定新聞事件的新聞文檔可以根據以下的‘4W’元素唯一標識:人或者機構(Who)、時間(When)、地點(Where)和事件(What)。其中,作為新聞實體的人應該予以特別的關注,因為不同新聞人物之間的社會關系網絡可以認為是新聞事件之間一種間接聯系。因此,新聞事件和新聞人物應該認為是新聞檢索中的兩個基本要素,尤其在本專利的新聞人物檢索中,這兩個要素是相互關聯的。當不同的新聞事件發生在同樣的新聞人物或機構時,我們可以認為這些新聞事件可能是相關的;另一方面,同時出現在某一新聞事件中的新聞人物也可認為是相關的。對有效且準確組織和檢索可能相關的新聞事件而言,如何挖掘這兩個要素的內部關系和相互關系是一個非常重要并且具有挑戰性的問題。
在多種新聞相關的應用中,一些研究者已經關注挖掘新聞事件或者新聞實體的內部關系了。但是,大部分工作采用文本分析和忽略了事件和實體之間的關系。通常,新聞網頁包含了圖片,更加生動地描述一個新聞事件。新聞人物或者機構可能出現在這些圖片當中。因此,新聞圖片對理解新聞文檔的重要性和新聞文本一樣的,并且描述的更精確。目前,幾乎沒有研究工作試圖采用多模態信息分析新聞,在新聞檢索中也沒有相關工作開發可利用的事件-實體關系來挖掘或者糾正一些隱含的相關性。
微軟亞洲研究院研發的微軟人立方關系檢索從超過十億的中文網頁中自動的抽取出人名、地名、機構名以及中文短語,并且通過算法自動的計算出它們之間存在關系的可能性。此外,人立方關系檢索還自動的找出人名之間最可能的關系描述詞、與人名最可能相關的稱呼、作品詞條等。人立方關系檢索從這些中文網頁中自動的辨別出人名所對應的人物簡介文字,并按照這些文字是人物簡介的可能性進行排序。人立方改變了傳統呈現模式,提供了一種新的瀏覽網絡信息的體驗:以人與人之間的關系為紐帶,將埋藏在網絡信息海洋中的“人”的信息連接匯總,圖文并茂地展現出來。
人立方的任務是識別相關的新聞實體對和檢測出表示關系的關鍵詞。它采用引導結構降低人為標注樣本的個數和一般關系模型——馬爾可夫邏輯網絡在不同層次上抽取實體(人名、地名、機構和中文短語)關系。
但是,人立方依賴于文本分析只計算實體之間的關系,尤其是人物-人物之間的關系,忽略了目前網頁的多媒體特性。另外,新聞人物之間是可以通過新聞事件產生關系的,并且新聞人物的社會網絡關系和新聞事件之間的關系以及事件-人物關系不是獨立的,而是相關的。人立方的檢索結果只展示了人物之間的關系圖,沒有將人物與事件的關系和事件之間的關系展示出來。
發明內容
有鑒于此,本發明的主要目的在于采用目前網頁的多媒體特性和綜合無縫地考慮事件-人物、人物-人物和事件-事件的關系來挖掘潛在的事件-人物、人物-人物和事件-事件的關系,給用戶提供更加豐富的信息;另外,本發明的檢索結果展示界面中展示了新聞人物、新聞事件與查詢的關系,還提供了與新聞事件相關的新聞人物和事件,使用戶更生動地了解到更豐富的信息,為此而提供一種利用計算機的基于多媒體分析的新聞人物檢索方法。
為達到上述目的,本發明提供利用計算機的基于多媒體分析的新聞人物檢索方法的技術方案包括步驟如下:
步驟S1:利用計算機提取新聞圖像,用自然語言處理技術提取出新聞文檔的標題、時間、網站、摘要和正文以及對應的網址,提取出圖像的網址和圖像對應的文本信息,并去除重復文檔和從新聞文檔中提取出任命,為后續工作提供數據支持;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010605832.8/2.html,轉載請聲明來源鉆瓜專利網。





