[發(fā)明專利]生成訓(xùn)練數(shù)據(jù)的方法、裝置、電子設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202211635575.1 | 申請日: | 2022-12-19 |
| 公開(公告)號: | CN115952416A | 公開(公告)日: | 2023-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 劉劍;孫建東;史亞冰;蔣燁 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F16/36;G06F16/35;G06N5/025 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生成 訓(xùn)練 數(shù)據(jù) 方法 裝置 電子設(shè)備 介質(zhì) | ||
1.一種生成訓(xùn)練數(shù)據(jù)的方法,包括:
獲取包含知識三元組信息的第一數(shù)據(jù);
基于所述知識三元組信息解析所述第一數(shù)據(jù)以得到第一知識三元組集;
對所述第一知識三元組集進(jìn)行篩選,以得到第二知識三元組集;
獲取第二文本數(shù)據(jù);
對所述第二文本數(shù)據(jù)進(jìn)行預(yù)處理以得到多個目標(biāo)文本塊;
針對所述多個目標(biāo)文本塊中的每一個目標(biāo)文本塊,將所述第二知識三元組集與該目標(biāo)文本塊進(jìn)行模式匹配;以及
基于模式匹配的結(jié)果,生成三元組信息抽取模型的訓(xùn)練數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述第一知識三元組集中的每一個知識三元組由至少一個第一實(shí)體、關(guān)系和與所述至少一個第一實(shí)體具有所述關(guān)系的至少一個第二實(shí)體三個元素組成,并且其中,所述對所述第一知識三元組集進(jìn)行篩選,以得到第二知識三元組集包括:
獲取預(yù)設(shè)規(guī)則,所述預(yù)設(shè)規(guī)則包括所述三個元素中至少一個元素對應(yīng)的預(yù)期字符長度和/或所述至少一個元素在所述第一知識三元組集中出現(xiàn)的預(yù)期頻率;
移除所述第一知識三元組集中不符合所述預(yù)設(shè)規(guī)則的知識三元組和/或重復(fù)的知識三元組;以及
基于所述第一知識三元組集中余下的知識三元組,確定所述第二知識三元組集。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于所述第一知識三元組集中余下的知識三元組,確定所述第二知識三元組集包括:
確定所述第一知識三元組集中余下的知識三元組中的第一實(shí)體和第二實(shí)體是否均具有類型;以及
響應(yīng)于確定余下的每一個知識三元組中的第一實(shí)體和第二實(shí)體均具有類型,將所述第一知識三元組集中余下的知識三元組確定為所述第二知識三元組集;或
響應(yīng)于確定所述余下的知識三元組中存在缺少實(shí)體類型的知識三元組,基于預(yù)設(shè)的概念庫和缺少類型的實(shí)體,補(bǔ)充該實(shí)體對應(yīng)的類型,以得到所述第二知識三元組集。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其中,所述第二數(shù)據(jù)包括具有層級的第一多個文本塊和不具有層級的第二多個文本塊,并且其中,所述對所述第二數(shù)據(jù)進(jìn)行第二預(yù)處理以得到多個目標(biāo)文本塊包括:
對所述第二數(shù)據(jù)中的所述第一多個文本塊進(jìn)行層級解析;以及
移除解析后的第一多個文本塊和所述第二多個文本塊中的異常字符和長度不滿足預(yù)設(shè)長度的文本塊,以得到所述多個目標(biāo)文本塊。
5.根據(jù)權(quán)利要求3或4所述的方法,其中,所述針對所述多個目標(biāo)文本塊中的每一個目標(biāo)文本塊,將所述第二知識三元組集與該目標(biāo)文本塊進(jìn)行模式匹配包括:
基于所述第二知識三元組集,構(gòu)建多模匹配樹;以及
針對所述多個目標(biāo)文本塊中的每一個目標(biāo)文本塊,將所述多模匹配樹與該目標(biāo)文本塊進(jìn)行匹配,以確定所述第二知識三元組集中與該目標(biāo)文本塊匹配的知識三元組。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述多模匹配樹包括第一多模匹配樹和第二多模匹配樹,并且其中,所述基于所述第二知識三元組集,構(gòu)建多模匹配樹包括:
基于所述第二知識三元組集的每個知識三元組的第一實(shí)體,生成第一詞表;
基于所述第二知識三元組集的每個知識三元組的第二實(shí)體,生成第二詞表;
基于所述第一詞表,構(gòu)建所述第一多模匹配樹;以及
基于所述第二詞表,構(gòu)建所述第二多模匹配樹。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211635575.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





