[發(fā)明專利]融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201110352002.3 | 申請日: | 2011-11-09 |
| 公開(公告)號: | CN102364473A | 公開(公告)日: | 2012-02-29 |
| 發(fā)明(設(shè)計)人: | 盧漢清;劉靜;李澤超 | 申請(專利權(quán))人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 王波波 |
| 地址: | 100190 中*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 地理信息 視覺 信息 網(wǎng)絡(luò)新聞 檢索系統(tǒng) 方法 | ||
1.一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索系統(tǒng),該系統(tǒng)包括:
數(shù)據(jù)預處理模塊,用于爬取新聞數(shù)據(jù)并進行文本分析和信息數(shù)據(jù)提 取,所述新聞數(shù)據(jù)包括人物,地點、時間和文本信息;
地點相關(guān)性分析模塊,用于執(zhí)行新聞事件與新聞地點的相關(guān)性分析;
新聞配圖模塊,用于為新聞選擇能夠說明新聞內(nèi)容的圖像;
檢索結(jié)果展示模塊,用于基于檢索相關(guān)性排序展示檢索到的新聞。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),所述數(shù)據(jù)預處理模塊包括:
新聞數(shù)據(jù)爬取模塊,用于從新聞網(wǎng)站上爬取新聞文檔和對應(yīng)的新聞圖 像;
文本分析模塊,用于提取出新聞數(shù)據(jù)的標題、時間、網(wǎng)站、摘要和正 文以及對應(yīng)的網(wǎng)址,提取出新聞圖像的網(wǎng)址和圖像對應(yīng)的文本信息;
新聞實體提取模塊,從新聞數(shù)據(jù)中提取出人物,地點和時間。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),所述地點相關(guān)性分析模塊包括:
地理名詞過濾和擴展模塊,用于獲取地理名詞的地理位置信息;
基于矩陣分解的相關(guān)性分析模塊,用于利用一致性約束概率矩陣分解 方法分析新聞地點和新聞事件之間的關(guān)系。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),所述新聞配圖模塊包括:
檢索詞生成模塊,用于從新聞數(shù)據(jù)中抽取一個或多個關(guān)鍵詞,將其組 合成檢索詞并提交給圖像搜索引擎進行圖像檢索;
圖像排序和選擇模塊,用于對檢索到的圖像進行排序和去重,并選擇 能夠說明新聞內(nèi)容的圖像。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),所述檢索結(jié)果展示模塊包括:
地圖視圖模塊,用于顯示所選擇的新聞在地圖上的分布位置;
新聞事件列表模塊,用于按照預定的規(guī)則排序并顯示檢索到的新聞事 件的列表。
6.根據(jù)權(quán)利要求3所述的系統(tǒng),所述一致性約束概率矩陣分解方法基 于下述規(guī)則分析新聞地點和新聞事件之間的關(guān)系:相似度較高的新聞事件 很可能發(fā)生在同一個地方,以及相關(guān)性較高的多個地點與同一個新聞事件 的關(guān)系是相近的。
7.根據(jù)權(quán)利要求4所述的系統(tǒng),其中
所述檢索詞生成模塊從新聞數(shù)據(jù)的多個部分中提取檢索詞進行圖像 檢索;
所述圖像排序和選擇模塊采用基于等級聚合的方法對檢索到的圖像 進行排序。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述預定的規(guī)則排序包括下述中 的一種或多種:新聞事件之間的相關(guān)性、新聞事件與檢索地點之間的相關(guān) 性以及新聞發(fā)生的時間信息。
9.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述地圖視圖模塊,響應(yīng)于用戶 輸入的檢索詞或者點擊地圖上任何一個地點,顯示出最相關(guān)新聞事件的標 題及對應(yīng)的圖像。
10.一種融合地理信息與視覺信息的網(wǎng)絡(luò)新聞檢索方法,該方法包括:
數(shù)據(jù)預處理步驟,用于爬取新聞數(shù)據(jù)并進行文本分析和信息數(shù)據(jù)提 取,所述新聞數(shù)據(jù)包括人物,地點、時間和文本信息;
地點相關(guān)性分析步驟,用于執(zhí)行新聞事件與新聞地點的相關(guān)性分析;
新聞配圖步驟,用于為新聞選擇能夠說明新聞內(nèi)容的圖像;
檢索結(jié)果展示步驟,用于基于檢索相關(guān)性排序展示檢索到的新聞。
11.根據(jù)權(quán)利要求10所述的方法,所述數(shù)據(jù)預處理步驟包括:
新聞數(shù)據(jù)爬取步驟,用于從新聞網(wǎng)站上爬取新聞文檔和對應(yīng)的新聞圖 像;
文本分析步驟,用于提取出新聞數(shù)據(jù)的標題、時間、網(wǎng)站、摘要和正 文以及對應(yīng)的網(wǎng)址,提取出新聞圖像的網(wǎng)址和圖像對應(yīng)的文本信息;
新聞實體提取步驟,從新聞數(shù)據(jù)中提取出人物,地點和時間。
12.根據(jù)權(quán)利要求10所述的方法,所述地點相關(guān)性分析步驟包括:
地理名詞過濾和擴展步驟,用于獲取地理名詞的地理位置信息;
基于矩陣分解的相關(guān)性分析步驟,用于利用一致性約束概率矩陣分解 方法分析新聞地點和新聞事件之間的關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110352002.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





