[發(fā)明專利]基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法、裝置和電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202210253883.1 | 申請(qǐng)日: | 2022-03-15 |
| 公開(kāi)(公告)號(hào): | CN114756532A | 公開(kāi)(公告)日: | 2022-07-15 |
| 發(fā)明(設(shè)計(jì))人: | 徐佳君 | 申請(qǐng)(專利權(quán))人: | 上海創(chuàng)圖網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/22;G06F16/242;G06F16/2455;G06F16/2458;G06F16/25;G06F40/216 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 200072 上海市靜安*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文化 多源異構(gòu) 數(shù)據(jù) 采集 方法 裝置 電子設(shè)備 | ||
1.基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,包括:
創(chuàng)建不同類型多源異構(gòu)文化數(shù)據(jù)源接口,利用所述多源異構(gòu)文化數(shù)據(jù)源接口對(duì)各多源異構(gòu)文化數(shù)據(jù)源進(jìn)行采集;
根據(jù)預(yù)設(shè)多源異構(gòu)文化數(shù)據(jù)源清洗規(guī)則對(duì)采集的所述多源異構(gòu)文化數(shù)據(jù)源進(jìn)行清洗,得到清洗后的多源異構(gòu)文化數(shù)據(jù)源;
利用雙向修正的融合方法修正清洗后的多源異構(gòu)文化數(shù)據(jù)源,得到修正多源異構(gòu)文化數(shù)據(jù);
根據(jù)預(yù)設(shè)多源異構(gòu)文化數(shù)據(jù)采集規(guī)則對(duì)所述修正多源異構(gòu)文化數(shù)據(jù)進(jìn)行關(guān)鍵詞提取;
基于預(yù)設(shè)關(guān)鍵詞權(quán)重算法確定與所述多源異構(gòu)文化數(shù)據(jù)源的索引路徑相對(duì)的唯一關(guān)鍵詞。
2.如權(quán)利要求1所述的基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,在創(chuàng)建不同類型多源異構(gòu)文化數(shù)據(jù)源接口之前,包括:
建立關(guān)鍵詞表;
獲取所述多源異構(gòu)文化數(shù)據(jù)源的采集內(nèi)容,并創(chuàng)建對(duì)應(yīng)的采集語(yǔ)法;
根據(jù)所述采集語(yǔ)法,建立多源異構(gòu)文化數(shù)據(jù)采集規(guī)則;
將所述多源異構(gòu)文化數(shù)據(jù)采集規(guī)則關(guān)聯(lián)到所述關(guān)鍵詞表對(duì)應(yīng)的關(guān)鍵詞。
3.如權(quán)利要求1所述的基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,所述建立關(guān)鍵詞表,包括:
獲取多源異構(gòu)文化數(shù)據(jù)源,確定多源異構(gòu)文化數(shù)據(jù)源關(guān)鍵詞;
獲取所述多源異構(gòu)文化數(shù)據(jù)源中數(shù)據(jù)內(nèi)容的類型特征,確定類型特征關(guān)鍵詞;
根據(jù)所述多源異構(gòu)文化數(shù)據(jù)源關(guān)鍵詞和所述類型特征關(guān)鍵詞,確定所述多源異構(gòu)文化數(shù)據(jù)源關(guān)鍵詞和所述類型特征關(guān)鍵詞的鄰近詞,并將所述鄰近詞作為補(bǔ)充詞;
根據(jù)所述多源異構(gòu)文化數(shù)據(jù)源關(guān)鍵詞、所述類型特征關(guān)鍵詞和所述補(bǔ)充詞建立三維異構(gòu)的關(guān)鍵詞表。
4.如權(quán)利要求2所述的基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,所述獲取多源異構(gòu)文化數(shù)據(jù)源的采集內(nèi)容,并創(chuàng)建對(duì)應(yīng)的采集語(yǔ)法,包括:
基于所述多源異構(gòu)文化數(shù)據(jù)源的采集需求,確定抽象語(yǔ)法樹(shù);
通過(guò)所述抽象語(yǔ)法樹(shù)獲取所述多源異構(gòu)文化數(shù)據(jù)源采集內(nèi)容,基于自定義的反射規(guī)則,構(gòu)建采集語(yǔ)法的邏輯執(zhí)行規(guī)則;
基于所述多源異構(gòu)文化數(shù)據(jù)源采集內(nèi)容的內(nèi)容序列和內(nèi)容形式,構(gòu)建采集語(yǔ)法的語(yǔ)法結(jié)構(gòu);
根據(jù)所述邏輯執(zhí)行規(guī)則和語(yǔ)法結(jié)構(gòu),確定所述采集語(yǔ)法。
5.如權(quán)利要求2所述的基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,所述根據(jù)所述采集語(yǔ)法,建立數(shù)據(jù)采集規(guī)則,包括:
獲取多源異構(gòu)文化數(shù)據(jù)的采集請(qǐng)求,基于所述采集請(qǐng)求,調(diào)用所述采集語(yǔ)法;
基于所述采集語(yǔ)法確定多源異構(gòu)文化數(shù)據(jù)的統(tǒng)一數(shù)據(jù)導(dǎo)入接口;
通過(guò)基于規(guī)則融合技術(shù),融合數(shù)據(jù)采集規(guī)則,并將融合數(shù)據(jù)采集規(guī)則配置到所述統(tǒng)一數(shù)據(jù)導(dǎo)入接口,構(gòu)建統(tǒng)一數(shù)據(jù)導(dǎo)入接口的多源異構(gòu)文化數(shù)據(jù)采集規(guī)則。
6.如權(quán)利要求2所述的基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,所述將所述多源異構(gòu)文化數(shù)據(jù)采集規(guī)則關(guān)聯(lián)到所述關(guān)鍵詞表對(duì)應(yīng)的關(guān)鍵詞上,包括:
確定所述多源異構(gòu)文化數(shù)據(jù)采集規(guī)則的規(guī)則特征;
根據(jù)所述規(guī)則特征,在所述關(guān)鍵詞表中確定與所述規(guī)則特征相對(duì)應(yīng)的關(guān)鍵詞特征;
根據(jù)所述關(guān)鍵詞特征確定所述關(guān)鍵詞的,并對(duì)所述關(guān)鍵詞進(jìn)行地址標(biāo)記;根據(jù)所述地址標(biāo)記,確定所述關(guān)鍵詞的地址信息;
根據(jù)所述地址信息將所述數(shù)據(jù)采集規(guī)則配置到所述關(guān)鍵詞表的關(guān)鍵詞上。
7.如權(quán)利要求1所述的基于文化天貓的多源異構(gòu)數(shù)據(jù)采集方法,其特征在于,所述基于預(yù)設(shè)關(guān)鍵詞權(quán)重算法確定與所述多源異構(gòu)文化數(shù)據(jù)源的索引路徑相對(duì)的唯一關(guān)鍵詞,包括:
當(dāng)同一索引路徑存在多個(gè)關(guān)鍵詞時(shí),利用預(yù)設(shè)關(guān)鍵詞權(quán)重算法計(jì)算多個(gè)關(guān)鍵詞與相應(yīng)的索引路徑之間的權(quán)重占比;
選擇權(quán)重占比最大的關(guān)鍵詞為唯一關(guān)鍵詞,刪除其它關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海創(chuàng)圖網(wǎng)絡(luò)科技股份有限公司,未經(jīng)上海創(chuàng)圖網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210253883.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
- 用于電網(wǎng)的多源異構(gòu)數(shù)據(jù)處理方法及裝置
- 一種配用電數(shù)據(jù)的處理方法及系統(tǒng)
- 一種面向水下探測(cè)的多源異構(gòu)數(shù)據(jù)預(yù)處理方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的綜采工作面多源異構(gòu)數(shù)據(jù)融合方法
- 基于業(yè)務(wù)規(guī)則的多源異構(gòu)數(shù)據(jù)表示與分發(fā)方法、裝置
- 一種基于邊緣計(jì)算的電力異構(gòu)數(shù)據(jù)處理方法
- 適用于多源異構(gòu)電網(wǎng)的運(yùn)行方式拓?fù)浣Y(jié)構(gòu)特征提取方法
- 一種多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





