[發(fā)明專利]知識(shí)圖譜中的實(shí)體對(duì)齊方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201911001804.2 | 申請(qǐng)日: | 2019-10-21 |
| 公開(kāi)(公告)號(hào): | CN110765276A | 公開(kāi)(公告)日: | 2020-02-07 |
| 發(fā)明(設(shè)計(jì))人: | 姜旭;李嘉琛 | 申請(qǐng)(專利權(quán))人: | 北京明略軟件系統(tǒng)有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/35;G06F40/30;G06F40/247 |
| 代理公司: | 11240 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人: | 江舟 |
| 地址: | 100086 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 可用信息 對(duì)齊 協(xié)同 數(shù)據(jù)實(shí)體 知識(shí)表示 相似度 訓(xùn)練集 標(biāo)注 圖譜 學(xué)習(xí) | ||
1.一種知識(shí)圖譜中的實(shí)體對(duì)齊方法,其特征在于,包括:
從多個(gè)平臺(tái)中獲取多個(gè)實(shí)體作為實(shí)體訓(xùn)練集;
根據(jù)與所述實(shí)體訓(xùn)練集中各個(gè)實(shí)體相關(guān)的可用信息生成用于進(jìn)行協(xié)同訓(xùn)練的特征,其中,所述特征用于指示多個(gè)實(shí)體中同一類可用信息之間的相似度;
根據(jù)所述特征對(duì)基于協(xié)同訓(xùn)練的模型進(jìn)行訓(xùn)練,并根據(jù)訓(xùn)練得到的模型判別待處理的實(shí)體對(duì)是否同義。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,從多個(gè)平臺(tái)中獲取多個(gè)實(shí)體作為實(shí)體訓(xùn)練集,包括:
對(duì)多個(gè)平臺(tái)的多個(gè)實(shí)體的可用信息進(jìn)行提取,其中,所述可用信息至少包括以下之一:實(shí)體名、實(shí)體所包含的文本、關(guān)鍵離散值、實(shí)體屬性;
將提取過(guò)可用信息的實(shí)體作為所述實(shí)體訓(xùn)練集中的實(shí)體。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)與所述實(shí)體訓(xùn)練集中各個(gè)實(shí)體相關(guān)的可用信息生成用于進(jìn)行協(xié)同訓(xùn)練的特征包括:
確定多個(gè)實(shí)體的所述實(shí)體名之間的相似度;或,確定多個(gè)實(shí)體的實(shí)體所包含的文本中的標(biāo)題、正文以及屬性組合之后每種組合中2段文本之間的相似度;或,確定多個(gè)實(shí)體的關(guān)鍵離散值集合中2關(guān)鍵離散值之間的相似度;或,確定多個(gè)實(shí)體的屬性提取2維特征,并確定2實(shí)體屬性的相似度;
將所述相似度作為用于進(jìn)行協(xié)同訓(xùn)練的特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述特征對(duì)基于協(xié)同訓(xùn)練的模型進(jìn)行訓(xùn)練,包括:
將所述特征分為文本視圖和關(guān)鍵離散值視圖,其中,實(shí)體名和實(shí)體所包含的文本的劃分到所述文本視圖中;屬性與關(guān)鍵離散值劃分到所述關(guān)鍵離散值視圖中;
基于文本視圖和關(guān)鍵離散值視圖對(duì)基于協(xié)同訓(xùn)練的模型進(jìn)行訓(xùn)練。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述模型為二分類器。
6.一種知識(shí)圖譜中的實(shí)體對(duì)齊裝置,其特征在于,包括:
獲取模塊,用于從多個(gè)平臺(tái)中獲取多個(gè)實(shí)體作為實(shí)體訓(xùn)練集;
生成模塊,用于根據(jù)與所述實(shí)體訓(xùn)練集中各個(gè)實(shí)體相關(guān)的可用信息生成用于進(jìn)行協(xié)同訓(xùn)練的特征,其中,所述特征用于指示多個(gè)實(shí)體中同一類可用信息之間的相似度;
對(duì)齊模塊,用于根據(jù)所述特征對(duì)基于協(xié)同訓(xùn)練的模型進(jìn)行訓(xùn)練,并根據(jù)訓(xùn)練得到的模型判別待處理的實(shí)體對(duì)是否同義。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取模塊包括:
提取單元,用于對(duì)多個(gè)平臺(tái)的多個(gè)實(shí)體的可用信息進(jìn)行提取,其中,所述可用信息至少包括以下之一:實(shí)體名、實(shí)體所包含的文本、關(guān)鍵離散值、實(shí)體屬性;
第一處理單元,用于將提取過(guò)可用信息的實(shí)體作為所述實(shí)體訓(xùn)練集中的實(shí)體。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述生成模塊包括:
確定單元,用于確定多個(gè)實(shí)體的所述實(shí)體名之間的相似度;或,確定多個(gè)實(shí)體的實(shí)體所包含的文本中的標(biāo)題、正文以及屬性組合之后每種組合中2段文本之間的相似度;或,確定多個(gè)實(shí)體的關(guān)鍵離散值集合中2關(guān)鍵離散值之間的相似度;或,確定多個(gè)實(shí)體的屬性提取2維特征,并確定2實(shí)體屬性的相似度;
第二處理單元,用于將所述相似度作為用于進(jìn)行協(xié)同訓(xùn)練的特征。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述對(duì)齊模塊包括:
劃分單元,用于將所述特征分為文本視圖和關(guān)鍵離散值視圖,其中,實(shí)體名和實(shí)體所包含的文本的劃分到所述文本視圖中;屬性與關(guān)鍵離散值劃分到所述關(guān)鍵離散值視圖中;
訓(xùn)練單元,用于基于文本視圖和關(guān)鍵離散值視圖對(duì)基于協(xié)同訓(xùn)練的模型進(jìn)行訓(xùn)練。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的裝置,其特征在于,所述模型為二分類器。
11.一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行所述權(quán)利要求1至5任一項(xiàng)中所述的方法。
12.一種電子裝置,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述處理器被設(shè)置為運(yùn)行所述計(jì)算機(jī)程序以執(zhí)行所述權(quán)利要求1至5任一項(xiàng)中所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明略軟件系統(tǒng)有限公司,未經(jīng)北京明略軟件系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911001804.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 配置和保護(hù)用戶軟硬件配置信息的方法和系統(tǒng)
- 無(wú)線網(wǎng)絡(luò)中可用網(wǎng)絡(luò)信息的配置方法及其系統(tǒng)
- 可用帶寬測(cè)量方法、系統(tǒng)與裝置
- 內(nèi)容發(fā)布系統(tǒng)以及內(nèi)容發(fā)布方法
- 一種測(cè)試客戶端可用性的方法及客戶端
- 預(yù)購(gòu)電的管理系統(tǒng)
- 終端、信息處理設(shè)備和方法、及圖像形成系統(tǒng)和方法
- 支持eMBMS的方法、MCE、基站和終端
- 用于確定分布式存儲(chǔ)系統(tǒng)的服務(wù)可用性信息的方法與設(shè)備
- 接口可用性上報(bào)、指示方法和設(shè)備
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺(tái)的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無(wú)人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)
- 用于產(chǎn)生和解釋具有帶有指定入口點(diǎn)的一系列段的數(shù)據(jù)流的設(shè)備、方法和計(jì)算機(jī)程序
- 表格數(shù)據(jù)的消歧方法和系統(tǒng)
- 一種訪問(wèn)數(shù)據(jù)實(shí)體的方法及裝置
- 一種高度關(guān)聯(lián)大數(shù)據(jù)的存儲(chǔ)方法及管理系統(tǒng)
- 數(shù)據(jù)讀寫(xiě)方法、計(jì)算機(jī)設(shè)備與計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 電力業(yè)務(wù)數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備和介質(zhì)
- 數(shù)據(jù)處理方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)一致性檢測(cè)方法
- 基于數(shù)據(jù)結(jié)構(gòu)的自動(dòng)貫標(biāo)方法及裝置
- 分布式數(shù)據(jù)庫(kù)系統(tǒng)





