[發(fā)明專利]三元組的篩選方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110465765.2 | 申請(qǐng)日: | 2021-04-28 |
| 公開(公告)號(hào): | CN113495964A | 公開(公告)日: | 2021-10-12 |
| 發(fā)明(設(shè)計(jì))人: | 陳歡歡;王新;王翔宇;班泰瑜 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)技術(shù)大學(xué) |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F40/216;G06F40/295 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 劉穎 |
| 地址: | 230026 安*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 三元 篩選 方法 裝置 設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
1.一種三元組的篩選方法,其特征在于,包括:
獲取三元組庫,所述三元組庫包括多個(gè)候選三元組以及每一所述候選三元組的信息源,所述候選三元組從屬于所述候選三元組的信息源的文本數(shù)據(jù)中提取;
在所述候選三元組中獲取互斥三元組集合,所述互斥三元組集合由多個(gè)互斥三元組組成,任意兩個(gè)所述互斥三元組為表達(dá)的知識(shí)同時(shí)成立的概率等于0的候選三元組;
獲取所述互斥三元組的置信度,所述互斥三元組的置信度用于指示所述互斥三元組的信息源表達(dá)知識(shí)的概率;
將所述互斥三元組集合中置信度高的互斥三元組,作為篩選結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述候選三元組的獲取過程,包括:
獲取待處理文本數(shù)據(jù),所述待處理文本數(shù)據(jù)包括:以預(yù)設(shè)實(shí)體為搜索條件搜索得到的結(jié)果數(shù)據(jù);
將所述待處理文本數(shù)據(jù)的各個(gè)文本片段輸入至預(yù)先訓(xùn)練好的三元組預(yù)測(cè)模型,將所述三元組預(yù)測(cè)模型的輸出作為候選三元組,所述三元組預(yù)測(cè)模型以第一樣本文本片段為輸入,以所述第一樣本文本片段中的三元組為目標(biāo)輸出,訓(xùn)練得到。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取待處理文本數(shù)據(jù),包括:
獲取候選文本數(shù)據(jù),所述候選文本數(shù)據(jù)為以所述預(yù)設(shè)實(shí)體為搜索條件,搜索得到的排序前N的結(jié)果數(shù)據(jù),N為預(yù)設(shè)數(shù)值;
獲取各個(gè)所述候選文本數(shù)據(jù)的文本知識(shí)密度,所述候選文本數(shù)據(jù)的文本知識(shí)密度用于指示所述候選文本數(shù)據(jù)表達(dá)知識(shí)的概率,所述候選文本數(shù)據(jù)包括的動(dòng)詞越多,和/或所述候選文本數(shù)據(jù)包括的知識(shí)片段越多,所述候選文本數(shù)據(jù)的文本知識(shí)密度越大;
若所述候選文本數(shù)據(jù)的文本知識(shí)密度大于第一預(yù)設(shè)閾值,將所述候選文本數(shù)據(jù)作為所述待處理文本數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取各個(gè)所述候選文本數(shù)據(jù)的文本知識(shí)密度,包括:
將所述候選文本數(shù)據(jù)的各個(gè)文本片段輸入至預(yù)先訓(xùn)練好的知識(shí)預(yù)測(cè)模型,得到所述知識(shí)預(yù)測(cè)模型輸出的知識(shí)預(yù)測(cè)結(jié)果;所述知識(shí)預(yù)測(cè)結(jié)果指示作為輸入的文本片段是否屬于知識(shí)片段,所述知識(shí)預(yù)測(cè)模型以第二樣本文本片段為輸入,以所述第二樣本文本片段是否屬于知識(shí)片段為目標(biāo)輸出,訓(xùn)練得到,所述第二樣本文本片段的標(biāo)注指示所述第二樣本文本片段是否屬于知識(shí)片段;
將第一數(shù)值和第二數(shù)值的比值作為所述候選文本數(shù)據(jù)的知識(shí)片段密度,所述第一數(shù)值為所述候選文本數(shù)據(jù)中屬于知識(shí)片段的文本片段的數(shù)量,所述第二數(shù)值為所述候選文本數(shù)據(jù)中文本片段的總數(shù)量;
將第三數(shù)值和第四數(shù)值的比值作為所述候選文本數(shù)據(jù)的動(dòng)詞密度,所述第三數(shù)值為所述候選文本數(shù)據(jù)中的動(dòng)詞數(shù)量,所述第四數(shù)值為所述候選文本數(shù)據(jù)中的詞總數(shù)量;
將所述候選文本數(shù)據(jù)的知識(shí)片段密度和所述候選文本數(shù)據(jù)的動(dòng)詞密度加權(quán)相加,得到所述候選文本數(shù)據(jù)的文本知識(shí)密度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取所述互斥三元組的置信度,包括:
依據(jù)目標(biāo)數(shù)據(jù)的文本知識(shí)密度,獲取目標(biāo)信息源的信息源知識(shí)密度,所述目標(biāo)數(shù)據(jù)為屬于所述目標(biāo)信息源的至少一條候選文本數(shù)據(jù),所述目標(biāo)數(shù)據(jù)的文本知識(shí)密度越大,所述目標(biāo)信息源的信息源知識(shí)密度越大,所述目標(biāo)信息源為所述互斥三元組的任一信息源;
依據(jù)所述目標(biāo)數(shù)據(jù)的序位,獲取所述目標(biāo)信息源的信息源權(quán)威指數(shù),所述序位為所述目標(biāo)數(shù)據(jù)在所述以所述預(yù)設(shè)實(shí)體為搜索條件,搜索得到的結(jié)果數(shù)據(jù)中的排序,所述目標(biāo)數(shù)據(jù)的序位越小,所述目標(biāo)信息源的信息源權(quán)威指數(shù)越大;
將所述目標(biāo)信息源的信息源知識(shí)密度和所述目標(biāo)信息源的信息源權(quán)威指數(shù)乘積,作為所述目標(biāo)信息源的置信度;
依據(jù)所述互斥三元組的每一信息源的置信度,獲取所述互斥三元組的置信度,所述互斥三元組的置信度為所述互斥三元組的信息源的置信度的平均值,或,所述互斥三元組的信息源的置信度的最大值。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
將所述三元組庫中,除所述互斥三元組集合以外的候選三元組作為篩選結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)技術(shù)大學(xué),未經(jīng)中國(guó)科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110465765.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





