[發(fā)明專利]自動(dòng)擴(kuò)展參考數(shù)據(jù)的系統(tǒng)和方法無效
| 申請(qǐng)?zhí)枺?/td> | 200610128032.5 | 申請(qǐng)日: | 2006-08-31 |
| 公開(公告)號(hào): | CN101136020A | 公開(公告)日: | 2008-03-05 |
| 發(fā)明(設(shè)計(jì))人: | 郭宏蕾;郭志立;蘇中 | 申請(qǐng)(專利權(quán))人: | 國(guó)際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 中國(guó)國(guó)際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所 | 代理人: | 李穎 |
| 地址: | 美國(guó)*** | 國(guó)省代碼: | 美國(guó);US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自動(dòng) 擴(kuò)展 參考 數(shù)據(jù) 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體地說,本發(fā)明涉及擴(kuò)展參考數(shù)據(jù)的系統(tǒng)和方法。
背景技術(shù)
對(duì)于數(shù)據(jù)倉庫的決策支持分析會(huì)影響到重大的商業(yè)決策。因此,這種分析的精確度是非常重要的。但是,數(shù)據(jù)倉庫從外部接收的數(shù)據(jù)通常會(huì)包括錯(cuò)誤,例如:拼寫錯(cuò)誤、數(shù)據(jù)源之間的約定不一致導(dǎo)致的錯(cuò)誤以及字段缺失等。因此,需要花費(fèi)大量時(shí)間和費(fèi)用來進(jìn)行數(shù)據(jù)清洗(即,檢測(cè)和糾正數(shù)據(jù)中的錯(cuò)誤)。
在這個(gè)方面,一種常見的技術(shù)是將輸入進(jìn)來的數(shù)據(jù)元組(tuple)與由已知正確的元組構(gòu)成的參考數(shù)據(jù)詞典(即,關(guān)系表)進(jìn)行對(duì)照,來對(duì)這些輸入進(jìn)來的數(shù)據(jù)元組進(jìn)行標(biāo)準(zhǔn)化。參考數(shù)據(jù)詞典可以是屬性值中的大量詞匯和結(jié)構(gòu)的來源。參考數(shù)據(jù)詞典可以來自數(shù)據(jù)倉庫內(nèi)部,也可以從外部獲得(例如,來自郵政部門的有效地址關(guān)系)。例如,參考詞典通常可以包括預(yù)先記錄的規(guī)范名稱(例如,公司名稱、產(chǎn)品名稱、位置等)以及描述字段。顯然,大規(guī)模的參考數(shù)據(jù)可以為數(shù)據(jù)清洗提供較好的支持。在典型的數(shù)據(jù)倉庫應(yīng)用環(huán)境中,大量新的參考實(shí)體概念條目快速涌現(xiàn),在這些新條目中,只有一小部分能被收集在現(xiàn)有的預(yù)定義參考數(shù)據(jù)詞典中。難以手動(dòng)收集新出現(xiàn)的大量參考實(shí)體條目(例如,新的客戶名稱、公司名稱、產(chǎn)品名稱、特定領(lǐng)域的實(shí)體名稱等),并且這樣的手動(dòng)收集費(fèi)用高昂。
因此,參考數(shù)據(jù)集的擴(kuò)展和更新仍然是各種面向任務(wù)或面向領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用的一個(gè)瓶頸,而數(shù)據(jù)清洗和分析中的一個(gè)突出問題便是參考數(shù)據(jù)集的自動(dòng)擴(kuò)展。但是,目前本技術(shù)領(lǐng)域中不存在能夠自動(dòng)擴(kuò)展和更新參考數(shù)據(jù)集的手段。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)的上述問題,本發(fā)明提供一種自動(dòng)擴(kuò)展參考數(shù)據(jù)的系統(tǒng)和方法。該系統(tǒng)和方法能夠通過不斷從現(xiàn)有數(shù)據(jù)源(例如,數(shù)據(jù)倉庫、web等)挖掘新的參考元組,以較低成本自動(dòng)擴(kuò)展參考數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)方面,提供一種用于從數(shù)據(jù)資源中自動(dòng)提取參考實(shí)體數(shù)據(jù)的系統(tǒng),包括:實(shí)體數(shù)據(jù)解析裝置,與數(shù)據(jù)資源耦接,用于對(duì)數(shù)據(jù)資源中的實(shí)體數(shù)據(jù)進(jìn)行解析,以獲得每個(gè)實(shí)體數(shù)據(jù)的內(nèi)部語義結(jié)構(gòu),并從所述內(nèi)部語義結(jié)構(gòu)產(chǎn)生特征集;以及數(shù)據(jù)提取裝置,用于根據(jù)所述實(shí)體數(shù)據(jù)解析裝置產(chǎn)生的特征集提取參考實(shí)體數(shù)據(jù)。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種用于從數(shù)據(jù)資源中自動(dòng)提取參考實(shí)體數(shù)據(jù)的方法,包括:對(duì)數(shù)據(jù)資源中的實(shí)體數(shù)據(jù)進(jìn)行解析,以獲得每個(gè)實(shí)體數(shù)據(jù)的內(nèi)部語義結(jié)構(gòu),并從所述內(nèi)部語義結(jié)構(gòu)產(chǎn)生特征集;以及根據(jù)所述實(shí)體數(shù)據(jù)解析產(chǎn)生的特征集提取參考實(shí)體數(shù)據(jù)。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包含在計(jì)算機(jī)系統(tǒng)可讀的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)上的多條指令,當(dāng)所述指令在計(jì)算機(jī)上執(zhí)行時(shí),用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法步驟。
根據(jù)本發(fā)明,可從現(xiàn)有數(shù)據(jù)資源(例如,數(shù)據(jù)倉庫、web、特定領(lǐng)域的數(shù)據(jù)集等)中收集新的參考元組來自動(dòng)擴(kuò)展參考數(shù)據(jù)。本發(fā)明提供了便于使用且有效的擴(kuò)展參考數(shù)據(jù)的機(jī)制。該系統(tǒng)能夠通過以低成本從現(xiàn)有數(shù)據(jù)源(例如,數(shù)據(jù)倉庫、web等)挖掘更多新的參考元組。
附圖說明
圖1示出根據(jù)本發(fā)明的自動(dòng)擴(kuò)展參考數(shù)據(jù)系統(tǒng)的總體框圖。
圖2示出根據(jù)本發(fā)明的自動(dòng)擴(kuò)展參考數(shù)據(jù)系統(tǒng)的擴(kuò)展組件的結(jié)構(gòu)框圖。
圖3示出根據(jù)本發(fā)明的自動(dòng)擴(kuò)展參考數(shù)據(jù)系統(tǒng)的存留組件的結(jié)構(gòu)框圖。
圖4示出擴(kuò)展組件從中文數(shù)據(jù)集合中提取新的實(shí)體參考數(shù)據(jù)的例子。
圖5示出擴(kuò)展組件從英文數(shù)據(jù)集合中提取新的實(shí)體參考數(shù)據(jù)的例子。
圖6示出根據(jù)本發(fā)明的優(yōu)選實(shí)施方式的方法流程圖。
具體實(shí)施方式
在參考附圖描述本發(fā)明的優(yōu)選實(shí)施方式之前,首先給出在本發(fā)明中用到的術(shù)語的含義。
參考數(shù)據(jù)詞典:是參考數(shù)據(jù)的一種典型的存儲(chǔ)形式,在數(shù)據(jù)倉庫應(yīng)用中也稱為“參考表”或者“參考關(guān)系”。參考數(shù)據(jù)詞典可以是屬性值中的大量詞匯和結(jié)構(gòu)的來源。例如,產(chǎn)品參考數(shù)據(jù)詞典通常包括預(yù)先記錄的規(guī)范產(chǎn)品名稱。
參考數(shù)據(jù)條目收集規(guī)范:參考數(shù)據(jù)收集的要求規(guī)范,例如:領(lǐng)域類別、數(shù)據(jù)類型、語言等。
參考數(shù)據(jù)樣本種子列表:類似于人們要查找的數(shù)據(jù)的樣本名稱,例如命名實(shí)體、特定領(lǐng)域的實(shí)體等。
實(shí)體:其相關(guān)信息被存儲(chǔ)的對(duì)象或事件,例如:人名、地名、公司名、產(chǎn)品名等。
別名:實(shí)體的不同于其標(biāo)準(zhǔn)名稱的名稱,例如:傳統(tǒng)名稱、縮寫、簡(jiǎn)稱、普遍用錯(cuò)的名稱。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)際商業(yè)機(jī)器公司,未經(jīng)國(guó)際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610128032.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





