[發(fā)明專利]自動擴展參考數(shù)據(jù)的系統(tǒng)和方法無效
| 申請?zhí)枺?/td> | 200610128032.5 | 申請日: | 2006-08-31 |
| 公開(公告)號: | CN101136020A | 公開(公告)日: | 2008-03-05 |
| 發(fā)明(設(shè)計)人: | 郭宏蕾;郭志立;蘇中 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿(mào)易促進委員會專利商標(biāo)事務(wù)所 | 代理人: | 李穎 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自動 擴展 參考 數(shù)據(jù) 系統(tǒng) 方法 | ||
1.一種用于從數(shù)據(jù)資源中自動提取參考實體數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括:
實體數(shù)據(jù)解析裝置,與數(shù)據(jù)資源耦接,用于對數(shù)據(jù)資源中的實體數(shù)據(jù)進行解析,以獲得每個實體數(shù)據(jù)的內(nèi)部語義結(jié)構(gòu),并從所述內(nèi)部語義結(jié)構(gòu)產(chǎn)生特征集;以及
數(shù)據(jù)提取裝置,用于根據(jù)所述實體數(shù)據(jù)解析裝置產(chǎn)生的特征集提取參考實體數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述數(shù)據(jù)提取裝置根據(jù)聚類方式和/或概率統(tǒng)計方式,從所述數(shù)據(jù)中提取參考實體數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),所述實體數(shù)據(jù)解析裝置與參考數(shù)據(jù)樣本種子列表、參考數(shù)據(jù)收集規(guī)范和現(xiàn)有的參考數(shù)據(jù)詞典中的至少一個相連,其中所述參考數(shù)據(jù)樣本種子列表用于定義要提取的實體參考數(shù)據(jù)的樣本,所述參考數(shù)據(jù)收集規(guī)范用于定義用于從中提取參考數(shù)據(jù)的數(shù)據(jù)集,所述現(xiàn)有的參考數(shù)據(jù)詞典可用作所述實體數(shù)據(jù)解析裝置對數(shù)據(jù)資源中的實體數(shù)據(jù)進行解析的依據(jù)。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),所述數(shù)據(jù)提取裝置進一步包括:
片斷提取裝置,用于根據(jù)所述特征集提取實體數(shù)據(jù)中的片斷條目;
實體提取裝置,用于提取所述片斷條目對應(yīng)的實體數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),所述片斷提取裝置進一步包括:
用于根據(jù)下述至少之一對片斷進行聚類的裝置:實體類型、實體內(nèi)部語義結(jié)構(gòu)和屬性、可用的實體共指鏈、共同的代表性參考實體片斷以及現(xiàn)有的參考數(shù)據(jù)詞典和別名列表。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),所述片斷提取裝置進一步包括:
用于根據(jù)下述至少之一對片斷進行統(tǒng)計分析的裝置:實體類型、實體內(nèi)部語義結(jié)構(gòu)和屬性、可用的實體共指鏈、共同的代表性參考實體片斷以及現(xiàn)有的參考數(shù)據(jù)詞典和別名列表。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),由所述數(shù)據(jù)提取裝置提取出的實體參考數(shù)據(jù)被用于更新所述現(xiàn)有的參考數(shù)據(jù)詞典和/或所述參考數(shù)據(jù)樣本種子列表。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),還包括:
存留組件,用于對從數(shù)據(jù)提取裝置輸出的候選參考實體數(shù)據(jù)進行優(yōu)化。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述存留組件包括:
標(biāo)準(zhǔn)化裝置,用于根據(jù)參考數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)則庫和/或復(fù)合參考數(shù)據(jù)條目組合規(guī)則庫,對候選參考實體數(shù)據(jù)進行標(biāo)準(zhǔn)化。
10.根據(jù)權(quán)利要求8或9所述的系統(tǒng),其中所述存留組件包括:去重裝置,用于從候選參考實體數(shù)據(jù)中去除重復(fù)的實例。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),還包括:
判斷組件,用于判斷是否滿足使數(shù)據(jù)提取裝置停止提取新的參考實體數(shù)據(jù)的條件。
12.一種用于從數(shù)據(jù)資源中自動提取參考實體數(shù)據(jù)的方法,所述方法包括:
對數(shù)據(jù)資源中的實體數(shù)據(jù)進行解析,以獲得每個實體數(shù)據(jù)的內(nèi)部語義結(jié)構(gòu),并從所述內(nèi)部語義結(jié)構(gòu)產(chǎn)生特征集;以及
根據(jù)所述實體數(shù)據(jù)解析產(chǎn)生的特征集提取參考實體數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的方法,其中根據(jù)聚類方式和/或概率統(tǒng)計方式,從所述數(shù)據(jù)中提取參考實體數(shù)據(jù)。
14.根據(jù)權(quán)利要求12所述的方法,其中參照參考數(shù)據(jù)樣本種子列表、參考數(shù)據(jù)收集規(guī)范和現(xiàn)有的參考數(shù)據(jù)詞典中的至少一個來對實體數(shù)據(jù)進行解析,其中所述參考數(shù)據(jù)樣本種子列表用于定義要提取的實體參考數(shù)據(jù)的樣本,所述參考數(shù)據(jù)收集規(guī)范用于定義用于從中提取參考數(shù)據(jù)的數(shù)據(jù)集,所述現(xiàn)有的參考數(shù)據(jù)詞典可用作對數(shù)據(jù)資源中的實體數(shù)據(jù)進行解析的依據(jù)。
15.根據(jù)權(quán)利要求12所述的方法,所述根據(jù)所述實體數(shù)據(jù)解析產(chǎn)生的特征集提取參考實體數(shù)據(jù)進一步包括:
根據(jù)所述特征集提取實體數(shù)據(jù)中的片斷條目;
提取所述片斷條目對應(yīng)的實體數(shù)據(jù)。
16.根據(jù)權(quán)利要求15所述的方法,所述根據(jù)所述特征集提取實體數(shù)據(jù)中的片斷條目的步驟進一步包括:
根據(jù)下述至少之一對片斷進行聚類:實體類型、實體內(nèi)部語義結(jié)構(gòu)和屬性、可用的實體共指鏈、共同的代表性參考實體片斷以及現(xiàn)有的參考數(shù)據(jù)詞典和別名列表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610128032.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





