[發(fā)明專利]一種數(shù)據(jù)集構(gòu)建和相關信息獲取方法及其裝置有效
| 申請?zhí)枺?/td> | 202010093817.3 | 申請日: | 2020-02-14 |
| 公開(公告)號: | CN111353300B | 公開(公告)日: | 2023-09-01 |
| 發(fā)明(設計)人: | 王立成;劉賀鵬;李欣;趙忠華;付培國;王祿恒;萬欣欣;孫立遠;張冰;杜漫;余智華 | 申請(專利權)人: | 中科天璣數(shù)據(jù)科技股份有限公司;國家計算機網(wǎng)絡與信息安全管理中心 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06F18/214;G06F18/241 |
| 代理公司: | 北京沁優(yōu)知識產(chǎn)權代理有限公司 11684 | 代理人: | 蔡巖巖 |
| 地址: | 100000 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù) 構(gòu)建 相關 信息 獲取 方法 及其 裝置 | ||
本發(fā)明提供了一種數(shù)據(jù)集構(gòu)建方法及裝置,包括步驟:數(shù)據(jù)采集,獲取來自互聯(lián)網(wǎng)數(shù)據(jù)源的第一數(shù)據(jù),所述第一數(shù)據(jù)包括自然語言,所述第一數(shù)據(jù)經(jīng)過預處理后,生成第二數(shù)據(jù);數(shù)據(jù)特征分析,所述第二數(shù)據(jù)包括子數(shù)據(jù),所述子數(shù)據(jù)包括第一特征數(shù)據(jù),分析所述第一特征數(shù)據(jù),得出所述第一特征數(shù)據(jù)的特征度;數(shù)據(jù)標簽建立,根據(jù)所述第一特征數(shù)據(jù)的特征度確定所述子數(shù)據(jù)標簽;數(shù)據(jù)分類存儲,根據(jù)所述子數(shù)據(jù)標簽將所述子數(shù)據(jù)分類保存,保存為數(shù)據(jù)集。實時采集互聯(lián)網(wǎng)中的數(shù)據(jù);根據(jù)特征數(shù)據(jù)和特征度提取對應的標簽;通過所述子數(shù)據(jù)標簽將所述子數(shù)據(jù)進行分類提高提取速度,提高工作效率。本發(fā)明提供了一種相關信息獲取方法及裝置,提高準確性,提高工作效率。
技術領域:
本發(fā)明涉及自然語言處理的語義分析領域,具體的,涉及一種數(shù)據(jù)集構(gòu)建和相關信息獲取方法及其裝置。
背景技術:
隨著網(wǎng)絡的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。當前動態(tài)信息獲取大多關缺乏對以事件為核心的動態(tài)知識的刻畫和構(gòu)建。從應用角度看,由于單純的實體知識庫,不能滿足日益復雜的需求和應用領域?qū)χR圖譜越來越高的期望,信息會隨著事件的發(fā)生及演化而導致其中若干實體關系或?qū)嶓w屬性的失真,從而間接影響已建實體知識庫的精準性,因此正確捕捉事件、正確解析事件有利于及時校準知識庫。通過歷史相似事件比對,分析時域、地域及用戶等多維因素對事件輿情走勢的影響,有利于掌握事件的演化趨勢。
面向事件的信息不同于普通的知識圖譜,在于它在描述事件的過程當中,不可避免地會與實體信息庫之間產(chǎn)生互動,包括實體、關系、屬性、事件、事件屬性、事件參與角色(論元)和事件之間的特殊關聯(lián)關系等。另外,事件關系抽取則必須要考慮事件對實體、事件對時空屬性、事件對事件等多種不同復雜情況。因此,建立事件間的因果、順承、細分、概括等關聯(lián)關系的復雜網(wǎng)絡,已受到人工智能類技術公司的高度重視。
綜上所述,當前實時輿情分析主要還是集中在歷史信息上,針對事件的發(fā)展,及發(fā)展后的結(jié)果分析比較差。因此實時分析事件的構(gòu)成要素和特點是亟待解決的問題。
因此,本領域亟需一種數(shù)據(jù)集構(gòu)建和相關信息獲取方法及其裝置以解決現(xiàn)有技術中的至少一項技術問題。
發(fā)明內(nèi)容:
為解決背景技術中的至少一個技術問題,提出本發(fā)明。
具體的,本發(fā)明的第一方面,提供了一種數(shù)據(jù)集構(gòu)建方法,包括步驟:
數(shù)據(jù)采集,獲取來自互聯(lián)網(wǎng)數(shù)據(jù)源的第一數(shù)據(jù),所述第一數(shù)據(jù)包括自然語言,所述第一數(shù)據(jù)經(jīng)過預處理后,生成第二數(shù)據(jù);
數(shù)據(jù)特征分析,所述第二數(shù)據(jù)包括子數(shù)據(jù),所述子數(shù)據(jù)包括第一特征數(shù)據(jù),分析所述第一特征數(shù)據(jù),得出所述第一特征數(shù)據(jù)的特征度;
數(shù)據(jù)標簽建立,根據(jù)所述第一特征數(shù)據(jù)的特征度確定所述子數(shù)據(jù)標簽;
數(shù)據(jù)分類存儲,根據(jù)所述子數(shù)據(jù)標簽將所述子數(shù)據(jù)分類保存,保存為數(shù)據(jù)集。
采用上述技術方案,實時采集互聯(lián)網(wǎng)中的數(shù)據(jù),保證數(shù)據(jù)的全面性;對于每個子數(shù)據(jù)分析出所述第一特征數(shù)據(jù),并分析出所述第一特征數(shù)據(jù)對應的特征度,根據(jù)特征度提取對應的標簽;通過所述子數(shù)據(jù)標簽將所述子數(shù)據(jù)進行分類,對于同一類的子數(shù)據(jù)分在同一類別,方便提取子數(shù)據(jù),提高提取速度,提高工作效率。
進一步地,所述獲取來自互聯(lián)網(wǎng)數(shù)據(jù)源的第一數(shù)據(jù),通過自動抽取組件獲取所述第一數(shù)據(jù),所述自動抽取組件包括Prophet、Constor、Mask和Indilator中的至少一種。
優(yōu)選地,所述數(shù)據(jù)集構(gòu)建方法還包括子數(shù)據(jù)類型排序,所述第一數(shù)據(jù)每隔第一時間段采集一次,根據(jù)所述第一時間段的各所述子數(shù)據(jù)類型的子數(shù)據(jù)增量對所述子數(shù)據(jù)類型排序。
采用上述方案,所述子數(shù)據(jù)類型排序?qū)崟r更新,根據(jù)實時熱度將對應時段熱度高的分類置于前列,對于實時熱度高的數(shù)據(jù)有更大的可能被提取,將熱度高的分類置于前列可以進一步提高提取效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科天璣數(shù)據(jù)科技股份有限公司;國家計算機網(wǎng)絡與信息安全管理中心,未經(jīng)中科天璣數(shù)據(jù)科技股份有限公司;國家計算機網(wǎng)絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010093817.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設備
- 并行構(gòu)建的方法、裝置及設備
- 構(gòu)建肺癌預測模型構(gòu)建方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





