[發(fā)明專利]一種多數(shù)據(jù)源影視數(shù)據(jù)實(shí)體對(duì)齊的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711089351.4 | 申請(qǐng)日: | 2017-11-08 |
| 公開(公告)號(hào): | CN107748799B | 公開(公告)日: | 2021-09-21 |
| 發(fā)明(設(shè)計(jì))人: | 唐娟;唐軍;李曉燕 | 申請(qǐng)(專利權(quán))人: | 四川長虹電器股份有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/735 |
| 代理公司: | 成都虹橋?qū)@聞?wù)所(普通合伙) 51124 | 代理人: | 吳中偉 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 多數(shù) 影視 數(shù)據(jù) 實(shí)體 對(duì)齊 方法 | ||
本發(fā)明涉及影視知識(shí)圖譜領(lǐng)域,公開了一種多數(shù)據(jù)源影視數(shù)據(jù)實(shí)體對(duì)齊的方法,來對(duì)齊多個(gè)數(shù)據(jù)源的實(shí)體,處理不同數(shù)據(jù)源之間的互補(bǔ)及冗余信息。本發(fā)明通過采集來自多個(gè)數(shù)據(jù)源的影視數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理、屬性對(duì)齊;然后基于預(yù)定義的影視實(shí)體匹配規(guī)則迅速對(duì)齊一部分實(shí)體;再基于實(shí)體相似度匹配剩下的影視實(shí)體;最后根據(jù)匹配結(jié)果進(jìn)行影視實(shí)體對(duì)齊。本發(fā)明適用于影視知識(shí)圖譜中多數(shù)據(jù)源影視數(shù)據(jù)實(shí)體對(duì)齊。
技術(shù)領(lǐng)域
本發(fā)明涉及影視知識(shí)圖譜領(lǐng)域,特別涉及一種多數(shù)據(jù)源影視數(shù)據(jù)實(shí)體對(duì)齊的方法。
背景技術(shù)
傳統(tǒng)的搜索引擎主要是基于關(guān)鍵字搜索相關(guān)網(wǎng)頁,再由用戶人工從一堆候選網(wǎng)頁中尋找有用的信息,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,這種傳統(tǒng)的搜索引擎已經(jīng)日漸無法滿足人們的需求,人們對(duì)搜索有了更高的期望。在此背景下,知識(shí)圖譜也就應(yīng)運(yùn)而生了,它把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制而顯示出來,描述了真實(shí)世界中存在的各種實(shí)體和概念,及實(shí)體、概念之間的關(guān)聯(lián)關(guān)系,從而改善了搜索結(jié)果。
知識(shí)圖譜覆蓋了各個(gè)領(lǐng)域的知識(shí),其中也包括影視這一人們娛樂生活中不可或缺的領(lǐng)域。影視知識(shí)圖譜的構(gòu)建需要將來自多個(gè)影視數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實(shí)體對(duì)齊,如豆瓣網(wǎng)、時(shí)光網(wǎng)、電影百度百科、中國電影票房網(wǎng)等數(shù)據(jù)源,從而實(shí)現(xiàn)一個(gè)統(tǒng)一接口、統(tǒng)一語義的影視知識(shí)圖譜。由于來自不同數(shù)據(jù)源的數(shù)據(jù)的格式、內(nèi)容、信息量都可能不同,必須要使用一種有效的方法來對(duì)齊多個(gè)數(shù)據(jù)源的實(shí)體,處理不同數(shù)據(jù)源之間的互補(bǔ)及冗余信息,充分綜合有用的信息,從而生成對(duì)影視對(duì)象的一致性解釋和描述。現(xiàn)有的影視知識(shí)圖譜領(lǐng)域的實(shí)體對(duì)齊主要是采用通用的一些實(shí)體對(duì)齊方法,并未考慮影視領(lǐng)域數(shù)據(jù)特有的特點(diǎn),而導(dǎo)致實(shí)體對(duì)齊結(jié)果的查準(zhǔn)率和查全率不高。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:提供一種多數(shù)據(jù)源影視數(shù)據(jù)實(shí)體對(duì)齊的方法,來對(duì)齊多個(gè)數(shù)據(jù)源的實(shí)體,處理不同數(shù)據(jù)源之間的互補(bǔ)及冗余信息。
為解決上述問題,本發(fā)明采用的技術(shù)方案是:一種多數(shù)據(jù)源影視數(shù)據(jù)實(shí)體對(duì)齊的方法,包括以下步驟:
步驟1:收集來自不同數(shù)據(jù)源的影視數(shù)據(jù)并分類;
步驟2:從影視數(shù)據(jù)中提取實(shí)體、實(shí)體主要特征、實(shí)體間關(guān)系;
步驟3:對(duì)提取的數(shù)據(jù)進(jìn)行預(yù)處理;
步驟4:基于預(yù)定義規(guī)則匹配與實(shí)體相似度匹配相結(jié)合的方式進(jìn)行實(shí)體匹配;
步驟5:根據(jù)實(shí)體匹配結(jié)果對(duì)齊實(shí)體。
進(jìn)一步的,步驟2中,從影視數(shù)據(jù)中提取的實(shí)體包括影視實(shí)體、人物實(shí)體;影視實(shí)體的主要特征至少包括片名、別名、出品年、上映日期、制片國家/地方、類型;人物實(shí)體的特征至少包括人名、別名、出生日期、職業(yè);實(shí)體間的關(guān)系至少包括人物與影片之間的“參演/導(dǎo)演/編劇”關(guān)系。
進(jìn)一步的,步驟3中,對(duì)提取的數(shù)據(jù)進(jìn)行預(yù)處理包括:
①簡(jiǎn)繁體轉(zhuǎn)換、特殊字符處理以及html轉(zhuǎn)義字符處理;
②根據(jù)屬性特征分別進(jìn)行處理,并將各屬性對(duì)齊。
進(jìn)一步的,步驟4具體包括:利用預(yù)定義規(guī)則匹配對(duì)待匹配實(shí)體中能夠完成規(guī)則匹配的部分進(jìn)行匹配,利用實(shí)體相似度匹配對(duì)待匹配實(shí)體中不能夠完成規(guī)則匹配的部分進(jìn)行匹配。
進(jìn)一步的,所述預(yù)定義規(guī)則匹配包括唯一規(guī)則匹配和非唯一規(guī)則匹配;匹配時(shí),滿足任意一條唯一匹配規(guī)則則認(rèn)為對(duì)應(yīng)的實(shí)體相匹配,滿足任意非唯一匹配規(guī)則的實(shí)體則加入候選集,利用多條非唯一規(guī)則對(duì)候選集中元素進(jìn)行篩選,以找到與待匹配實(shí)體相匹配的實(shí)體。
進(jìn)一步的,所述實(shí)體相似度匹配包括:
步驟41:基于概率模型計(jì)算得到影視實(shí)體各個(gè)屬性的權(quán)重;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長虹電器股份有限公司,未經(jīng)四川長虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711089351.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 影視信號(hào)的處理方法及其處理裝置
- 一種可互動(dòng)的影視搜索方法
- 影視資源的下載系統(tǒng)
- 影視資源推薦方法及裝置
- 影視道具共享方法及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于冷啟動(dòng)的影視內(nèi)容推薦方法及系統(tǒng)
- 劇集關(guān)系建立方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 影視配樂作者的推薦方法及系統(tǒng)
- 影視作品搜索方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 影視畫質(zhì)調(diào)節(jié)方法、裝置、終端設(shè)備、服務(wù)器及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





