[發(fā)明專利]一種多數(shù)據(jù)源影視數(shù)據(jù)實體對齊的方法有效
| 申請?zhí)枺?/td> | 201711089351.4 | 申請日: | 2017-11-08 |
| 公開(公告)號: | CN107748799B | 公開(公告)日: | 2021-09-21 |
| 發(fā)明(設計)人: | 唐娟;唐軍;李曉燕 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/735 |
| 代理公司: | 成都虹橋?qū)@聞账?普通合伙) 51124 | 代理人: | 吳中偉 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多數(shù) 影視 數(shù)據(jù) 實體 對齊 方法 | ||
1.一種多數(shù)據(jù)源影視數(shù)據(jù)實體對齊的方法,其特征在于,包括以下步驟:
步驟1:收集來自不同數(shù)據(jù)源的影視數(shù)據(jù)并分類;
步驟2:從影視數(shù)據(jù)中提取實體、實體主要特征、實體間關系;
步驟3:對提取的數(shù)據(jù)進行預處理;
步驟4:利用預定義規(guī)則匹配對待匹配實體中能夠完成規(guī)則匹配的部分進行匹配,利用實體相似度匹配對待匹配實體中不能夠完成規(guī)則匹配的部分進行匹配;
所述預定義規(guī)則匹配包括唯一規(guī)則匹配和非唯一規(guī)則匹配;匹配時,滿足任意一條唯一匹配規(guī)則則認為對應的實體相匹配,滿足任意非唯一匹配規(guī)則的實體則加入候選集,利用多條非唯一規(guī)則對候選集中元素進行篩選,以找到與待匹配實體相匹配的實體;
所述實體相似度匹配包括:
步驟41:基于概率模型計算得到影視實體各個屬性的權重;
步驟42:確定影視實體的屬性的類型,并利用各類型所對應的計算公式計算實體各屬性的相似度;影視實體的屬性的類型包括數(shù)值型、字符串型、日期型和集合型;
步驟43:將屬性權重和相似度加權平均得到實體的相似度,與待匹配實體相似度最大且相似度大于給定閾值的實體即與待匹配實體相匹配;
步驟5:根據(jù)實體匹配結果對齊實體。
2.如權利要求1所述的一種多數(shù)據(jù)源影視數(shù)據(jù)實體對齊的方法,其特征在于,步驟2中,從影視數(shù)據(jù)中提取的實體包括影視實體、人物實體;影視實體的主要特征至少包括片名、別名、出品年、上映日期、制片國家/地方、類型;人物實體的特征至少包括人名、別名、出生日期、職業(yè);實體間的關系至少包括人物與影片之間的“參演/導演/編劇”關系。
3.如權利要求1所述的一種多數(shù)據(jù)源影視數(shù)據(jù)實體對齊的方法,其特征在于,步驟3中,對提取的數(shù)據(jù)進行預處理包括:
①簡繁體轉(zhuǎn)換、特殊字符處理以及html轉(zhuǎn)義字符處理;
②根據(jù)屬性特征分別進行處理,并將各屬性對齊。
4.如權利要求1所述的一種多數(shù)據(jù)源影視數(shù)據(jù)實體對齊的方法,其特征在于,步驟42在計算兩個影視實體的影視名、演員名、導演名、編劇名屬性的相似度時,需要同時考慮各個實體的本名和別名,將其本名與零個或多個別名組合成名字集合,然后計算兩個名字集合是否存在交集及交集的大小來判斷相應屬性是否相等:如果影視名、導演名、編劇名屬性的名字集合的交集不為空,則認為待匹配影視實體的相應屬性的屬性值相同,如果演員名屬性的名字集合p1、p2的交集中元素的個數(shù)Num滿足:Num(p1∩p2)≥3或≥min(Num(p1),Num(p2)),則認為待匹配實體的演員屬性相等。
5.如權利要求1所述的一種多數(shù)據(jù)源影視數(shù)據(jù)實體對齊的方法,其特征在于,步驟5中,根據(jù)匹配結果進行實體對齊時遵循如下規(guī)則:如果目標數(shù)據(jù)源中已存在待對齊實體,則對其屬性進行更新,若屬性值有歧義,則保留較熱門數(shù)據(jù)源的值;如果目標數(shù)據(jù)源中不存在待對齊實體,則將該實體添加到目標數(shù)據(jù)源中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經(jīng)四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711089351.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





