[發明專利]融合地理信息與視覺信息的網絡新聞檢索系統及方法有效
| 申請號: | 201110352002.3 | 申請日: | 2011-11-09 |
| 公開(公告)號: | CN102364473A | 公開(公告)日: | 2012-02-29 |
| 發明(設計)人: | 盧漢清;劉靜;李澤超 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 王波波 |
| 地址: | 100190 中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 地理信息 視覺 信息 網絡新聞 檢索系統 方法 | ||
技術領域
本發明涉及網絡新聞檢索領域,特別的,涉及一種融合地理信息與視 覺信息的網絡新聞檢索系統及方法。
背景技術
隨著信息技術的發展和網絡的全球化,在線新聞越來越多并且也越來 越受歡迎,日益變成了人們日常生活中獲取信息的一種重要途徑。人們可 以通過一些主要的網絡門戶網站如雅虎、MSN或者大型新聞網站如CNN、 AOL和MSNBC獲取和瀏覽新聞。
但是,現有技術中的新聞展示方法具有若干不足。
例如,現有的新聞展示方法缺乏以地理為基礎的組織。有研究表明用 戶經常優先關注幾個特定地點的新聞,比如家鄉和工作地點。大部分的大 型新聞網站可以根據相關的國家進行組織新聞。用戶可以提交一個地點作 為檢索詞檢索新聞。但是文檔中包含的地理名詞經常存在噪聲,因而降低 了檢索的性能。
另外,現有的新聞展示方法不包含全面的視覺信息。
圖1顯示了現有技術中一篇新聞文檔中包含圖片個數的分布情況。
從圖1中可以看到,現有技術中大部分的新聞文檔沒有圖片或者包含 很少的圖片。例如,僅有不到5%的新聞文檔包含超過一張的圖片。
通常來說,圖片的表現效果勝過千言萬語,作為新聞文本的補充,新 聞圖片能夠使用戶更快的獲取信息。但是,如圖1所示,現有的新聞文檔 中包含的圖片數很少,因而遠遠不能滿足用戶獲取信息的全面需求。
發明內容
本發明的目的是提供一種融合地理與視覺信息的網絡新聞檢索系統 及方法。根據本發明的系統及方法,能夠為用戶提供基于地理信息組織的 新聞,使用戶快速地瀏覽到所關心地區發明的新聞事件;進而,本發明采 用圖像信息對文本信息進行補充,使用戶能夠快速地掌握新聞事件的內 容。
根據本發明的一個方面,提供了一種融合地理信息與視覺信息的網絡 新聞檢索系統,該系統包括:數據預處理模塊,用于爬取新聞數據并進行 文本分析和信息數據提取,所述新聞數據包括人物,地點、時間和文本信 息;地點相關性分析模塊,用于執行新聞事件與新聞地點的相關性分析; 新聞配圖模塊,用于為新聞選擇合適的圖像;檢索結果展示模塊,用于基 于檢索相關性排序展示檢索到的新聞。
其中,所述數據預處理模塊包括:新聞數據爬取模塊,用于從新聞網 站上爬取新聞文檔和對應的新聞圖像;文本分析模塊,用于提取出新聞數 據的標題、時間、網站、摘要和正文以及對應的網址,提取出新聞圖像的 網址和圖像對應的文本信息;新聞實體提取模塊,從新聞數據中提取出人 物,地點和時間。
所述地點相關性分析模塊包括:地理名詞過濾和擴展模塊,用于獲取 地理名詞的地理位置信息;基于矩陣分解的相關性分析模塊,用于利用一 致性約束概率矩陣分解方法分析新聞地點和新聞事件之間的關系。
所述新聞配圖模塊包括:檢索詞生成模塊,用于從新聞數據中抽取一 個或多個關鍵詞,將其組合成檢索詞并提交給圖像搜索引擎進行圖像檢 索;圖像排序和選擇模塊,用于對檢索到的圖像進行排序和去重,并選擇 能夠表達新聞文檔內容的圖像。
所述檢索結果展示模塊包括:地圖視圖模塊,用于顯示所選擇的新聞 在地圖上的分布位置;新聞事件列表模塊,用于按照預定的規則排序并顯 示檢索到的新聞事件的列表。
在地點相關性分析模塊中,所述一致性約束概率矩陣分解方法基于下 述規則分析新聞地點和新聞事件之間的關系:相似度較高的新聞事件很可 能發生在同一個地方,以及相關性較高的多個地點與同一個新聞事件的關 系是相近的。
在新聞配圖模塊中,所述檢索詞生成模塊是從新聞數據的多個部分中 提取檢索詞進行圖像檢索;所述圖像排序和選擇模塊采用基于等級聚合的 方法對檢索到的圖像進行排序。
在檢索結果展示模塊中,所述地圖視圖模塊響應于用戶輸入的檢索詞 或者點擊地圖上任何一個地點,顯示出最相關新聞事件的標題及對應的圖 像;所述預定的規則排序包括下述中的一種或多種:新聞事件之間的相關 性、新聞事件與檢索地點之間的相關性以及新聞發生的時間信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110352002.3/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





