[發(fā)明專利]利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法無效
| 申請(qǐng)?zhí)枺?/td> | 201010605832.8 | 申請(qǐng)日: | 2010-12-15 |
| 公開(公告)號(hào): | CN102024056A | 公開(公告)日: | 2011-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 盧漢清;李澤超;劉靜 | 申請(qǐng)(專利權(quán))人: | 中國科學(xué)院自動(dòng)化研究所 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 計(jì)算機(jī) 基于 多媒體 分析 新聞 人物 檢索 方法 | ||
1.利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法,其特征在于包括步驟如下:
步驟S1:利用計(jì)算機(jī)提取新聞圖像,用自然語言處理技術(shù)提取出新聞文檔的標(biāo)題、時(shí)間、網(wǎng)站、摘要和正文以及對(duì)應(yīng)的網(wǎng)址,提取出圖像的網(wǎng)址和圖像對(duì)應(yīng)的文本信息,并去除重復(fù)文檔和從新聞文檔中提取出任命,為后續(xù)工作提供數(shù)據(jù)支持;
步驟S2:多模態(tài)融合的關(guān)系初始化:基于步驟S1提供的數(shù)據(jù),一是統(tǒng)計(jì)人物在事件中出現(xiàn)的頻率,采用二值關(guān)系作為人物-事件的初始關(guān)系,即人物在事件中出現(xiàn)則二者的關(guān)系為1,否則為0;二是利用當(dāng)前新聞網(wǎng)頁的文本信息和圖像信息計(jì)算人物之間的關(guān)系,利用統(tǒng)計(jì)語言處理技術(shù)統(tǒng)計(jì)新聞人物在新聞文本中的共生關(guān)系,以及利用人臉識(shí)別技術(shù)統(tǒng)計(jì)新聞人物在新聞圖片中的共生關(guān)系,將這兩種共生關(guān)系線性加權(quán)作為新聞人物的初始關(guān)系;三是利用一篇新聞文檔的標(biāo)題、摘要和正文部分的不同重要性;對(duì)一篇文檔而言,標(biāo)題是最重要的,摘要次之,最后是正文;分別統(tǒng)計(jì)文檔的標(biāo)題、摘要和正文的相似關(guān)系,然后將這三種相似關(guān)系分別賦予不同的權(quán)重進(jìn)行加權(quán),得到的結(jié)果作為新聞文檔之間的初始關(guān)系;
步驟S3:關(guān)系重構(gòu):基于步驟S2計(jì)算出來的人物-事件、人物-人物以及事件-事件的初始關(guān)系,采用綜合多種關(guān)系的概率矩陣分解模型挖掘出潛在的人物特征矩陣和潛在的事件特征矩陣,利用得到的潛在矩陣對(duì)人物-事件、人物-人物和事件-事件關(guān)系進(jìn)行重構(gòu);在矩陣分解的過程中,并通過矩陣之間共享因子將事件-人物、人物-人物和事件-事件這三種關(guān)系矩陣無縫地結(jié)合起來,最后利用通過優(yōu)化目標(biāo)函數(shù)得到矩陣因子重構(gòu)和細(xì)化關(guān)系矩陣,挖掘出潛在的關(guān)系;
步驟S4:根據(jù)用戶提交的查詢關(guān)鍵詞和已重構(gòu)出來的關(guān)系對(duì)新聞人物和新聞事件按照與查詢關(guān)鍵詞的相關(guān)性進(jìn)行排序;
步驟S5:檢索結(jié)果瀏覽界面:用戶向計(jì)算機(jī)提交的人物名字為檢索關(guān)鍵詞,提供了一個(gè)以查詢?nèi)宋餅橹行牡年P(guān)系視圖和一個(gè)相關(guān)新聞事件列表視圖,將檢索結(jié)果反饋給用戶。
2.如權(quán)利要求1所述利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法,其特征在于,采用多模態(tài)信息計(jì)算人物之間的關(guān)系方法,綜合利用所述新聞網(wǎng)頁中的文本信息和圖像信息,分別計(jì)算人物在文本、圖像中的關(guān)系,并將這兩種模態(tài)信息中的關(guān)系組合。
3.如權(quán)利要求1所述利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法,其特征在于,所述事件關(guān)系的計(jì)算是考慮所述一篇文檔的標(biāo)題、摘要和正文的不同重要性,分別計(jì)算文檔之間的這三部分的相似性,并將這三部分相似性的線性組合作為事件之間的相似性。
4.如權(quán)利要求1所述利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法,其特征在于,基于多種關(guān)系概率矩陣分解模型挖掘潛在的關(guān)系,在矩陣分解過程當(dāng)中,通過矩陣之間的共享因子矩陣將這三種關(guān)系矩陣無縫地結(jié)合起來,同時(shí)綜合了三種關(guān)系矩陣挖掘潛在的人物特征矩陣和事件特征矩陣。
5.如權(quán)利要求1所述利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法,其特征在于,所述以查詢?nèi)宋餅橹行牡年P(guān)系視圖的節(jié)點(diǎn)是查詢、與查詢最相關(guān)的前10個(gè)新聞人物和前10個(gè)新聞事件;該關(guān)系視圖中不但包含了新聞人物之間的社會(huì)網(wǎng)絡(luò)圖,即最相關(guān)的前10個(gè)新聞人物之間的關(guān)系以及與查詢的關(guān)系,還包含了最相關(guān)的前10個(gè)新聞事件之間的關(guān)系以及與查詢的關(guān)系。
6.如權(quán)利要求1所述利用計(jì)算機(jī)的基于多媒體分析的新聞人物檢索方法,其特征在于,在所述相關(guān)新聞事件列表視圖中,每一個(gè)相關(guān)事件都提供了該事件的標(biāo)題、圖片、簡短摘要、最相關(guān)的前3個(gè)新聞人物以及最相關(guān)的前3個(gè)新聞事件,用戶通過點(diǎn)擊每一個(gè)新聞事件的標(biāo)題來瀏覽該事件的全文。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動(dòng)化研究所,未經(jīng)中國科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010605832.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法





