[發(fā)明專利]用于處理數(shù)據(jù)的系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 201210227570.5 | 申請日: | 2012-07-02 |
| 公開(公告)號: | CN102915321A | 公開(公告)日: | 2013-02-06 |
| 發(fā)明(設(shè)計)人: | L·J·夸特西;K·M·納卡摩德;B·沃恩 | 申請(專利權(quán))人: | 波音公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紀凱知識產(chǎn)權(quán)代理有限公司 11245 | 代理人: | 趙蓉民 |
| 地址: | 美國伊*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 處理 數(shù)據(jù) 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本公開的領(lǐng)域總體涉及數(shù)據(jù)分析,尤其是涉及處理未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)以生成結(jié)構(gòu)化數(shù)據(jù),以便由應(yīng)用程序處理。正如本文所使用的,未結(jié)構(gòu)化數(shù)據(jù)指為自由形式以及基于生成該數(shù)據(jù)人員的語法/語言而變化的數(shù)據(jù)。
背景技術(shù)
在數(shù)據(jù)分析系統(tǒng)中,數(shù)據(jù),例如未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本或其他數(shù)據(jù)類型(例如字母數(shù)字串和非字母數(shù)字數(shù)據(jù)(圖像、元數(shù)據(jù)等))在被添加到系統(tǒng)之前,常常需要被處理和/或組織成更結(jié)構(gòu)化的形式。然而,從未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化數(shù)據(jù)中識別、語法分析和提取相關(guān)信息會是困難的和耗時的。利用類屬語法分析器(generic?parsers)和/或提取器(extractor)來識別這類信息,數(shù)據(jù)會被忽略、錯誤識別和/或不適當?shù)亟鈽?gòu)。
為了糾正這些錯誤,常常編寫專用代碼以正確地識別該信息。然而,編寫和實現(xiàn)這類專用代碼會是耗時的,而且得到的代碼僅適用特定情形。進一步地,定期更新未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化數(shù)據(jù)會加重這些問題,因為其引入了可能需要其他專用代碼的新情形。進一步地,專用代碼通常僅能由有經(jīng)驗的人員編寫和更新。
也可以實現(xiàn)自然語言方法來處理和/或組織未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)。然而,根據(jù)未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)的來源,自然語言在組織未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)時可能不是有效的。進一步的,自然語言方法要求需要本體論(ontology)專家和數(shù)據(jù)挖掘?qū)<遥员阏_地編程和更新。最后,可以使用人工智能工具(例如基于規(guī)則的系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和/或Bayesian網(wǎng)絡(luò))來處理和/或組織未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)。然而這些系統(tǒng)也要求有經(jīng)驗的人員來實現(xiàn)和/或更新。
發(fā)明內(nèi)容
一方面,提供了用于處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的方法。該方法包括在數(shù)據(jù)處理工具從至少一個數(shù)據(jù)源接收至少部分未結(jié)構(gòu)化數(shù)據(jù)并處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù),其中標簽化數(shù)據(jù)包括至少一個感興趣的項目,以及其中處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)包括以下中的至少一個:利用關(guān)聯(lián)存儲器應(yīng)用程序來處理該至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用正則表達式處理程序來處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)。該方法進一步包括傳送至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序,并且至少部分基于標簽化數(shù)據(jù)合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,其中合并至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標簽的存在、內(nèi)容和/或類型來進行以下中的至少一個:包括數(shù)據(jù)和排除數(shù)據(jù)。
另一方面,提供了一種具有體現(xiàn)在其上的計算機可執(zhí)行指令的一個或更多計算機可讀存儲介質(zhì)。當由至少一個處理器執(zhí)行時,計算機可執(zhí)行指令使該至少一個處理器在數(shù)據(jù)處理工具處從至少一個數(shù)據(jù)源接收至少部分未結(jié)構(gòu)化數(shù)據(jù),并處理至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù),其中標簽化數(shù)據(jù)包括至少一個感興趣的項目,并且其中處理至少部分未結(jié)構(gòu)化數(shù)據(jù),計算機可執(zhí)行指令使處理器執(zhí)行以下中的至少一個:利用關(guān)聯(lián)存儲器的應(yīng)用程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用正則表達式處理程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù)。該指令進一步使至少一個處理器傳送至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,并且至少部分基于標簽化數(shù)據(jù)合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,其中合并至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標簽的存在進行以下中的至少一個:包括數(shù)據(jù)和排除數(shù)據(jù)。
在又一個方面,提供了一種用于處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)。該系統(tǒng)包括處理裝置、通信耦合到處理裝置的用戶接口以及通信耦合到處理裝置的存儲器和通信耦合到處理裝置的通信接口中的至少一個。處理裝置被編程為從存儲器和通信接口中的至少一個接收至少部分未結(jié)構(gòu)化數(shù)據(jù);利用在其上執(zhí)行的數(shù)據(jù)處理工具來通過以下中的至少一個處理至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù),標簽化數(shù)據(jù)包括至少一個感興趣的項目:利用在其上執(zhí)行的關(guān)聯(lián)存儲器應(yīng)用程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);和利用在其上執(zhí)行的正則表達式處理程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);以及基于標簽化合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,其中合并至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標簽的存在來進行以下中的至少一個:包括數(shù)據(jù)和排除數(shù)據(jù)。
已經(jīng)討論的特征、功能和優(yōu)點可以在各種實施例中獨立實現(xiàn)或可以在其他實施例中組合,其進一步細節(jié)可以參考下列描述和繪圖看出。
附圖說明
圖1是用于處理文本的方法的流程圖。
圖2A-2D是圖解說明在圖1示出的方法的圖示。
圖3是用于對未結(jié)構(gòu)化文本標簽化以生成結(jié)構(gòu)化文本的示例性方法的流程圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于波音公司,未經(jīng)波音公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210227570.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種從粉煤灰中綜合提取鋁和鋰的方法
- 下一篇:用于彎曲或柔性表面的觸摸傳感器
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





