[發(fā)明專利]基于電商領(lǐng)域表示模型的端到端三元組提取方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110793647.4 | 申請(qǐng)日: | 2021-07-14 |
| 公開(kāi)(公告)號(hào): | CN113282757A | 公開(kāi)(公告)日: | 2021-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 張賓;孫喜民;周晶;王帥;劉丹;鄭斌;孫博;李鑫 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)電子商務(wù)有限公司;國(guó)網(wǎng)電商科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/951;G06F40/117;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 成都華復(fù)知識(shí)產(chǎn)權(quán)代理有限公司 51298 | 代理人: | 龐啟成 |
| 地址: | 100053 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 領(lǐng)域 表示 模型 端到端 三元 提取 方法 系統(tǒng) | ||
1.基于電商領(lǐng)域表示模型的端到端三元組提取方法,其特征是,包括:
S100:利用爬蟲(chóng)工具獲取商品的描述文本,對(duì)描述文本進(jìn)行掩碼處理作為第一訓(xùn)練數(shù)據(jù);
S200:基于chunk-transformers架構(gòu)構(gòu)建表示模型,采用第一訓(xùn)練數(shù)據(jù)訓(xùn)練表示模型;
S300:從步驟S100所爬取的描述文本提取三元組,獲得第二訓(xùn)練數(shù)據(jù),并對(duì)第二訓(xùn)練數(shù)據(jù)進(jìn)行關(guān)系的人工標(biāo)注;
S400:基于Attention-Bi-LSTM構(gòu)建實(shí)體識(shí)別模型,采用已訓(xùn)練的表示模型對(duì)第二訓(xùn)練數(shù)據(jù)進(jìn)行表示,獲得表示向量,采用實(shí)體識(shí)別模型對(duì)表示向量進(jìn)行初步識(shí)別,獲得包含實(shí)體范圍的表示向量;
S500:利用關(guān)系生成模型將步驟S400所獲得表示向量生成實(shí)體的關(guān)系標(biāo)注序列,根據(jù)生成的關(guān)系標(biāo)注序列和真實(shí)標(biāo)注的交叉熵,優(yōu)化實(shí)體識(shí)別模型和關(guān)系生成模型;
S600:使用第二訓(xùn)練數(shù)據(jù)訓(xùn)練關(guān)系生成模型,獲得標(biāo)注,加上實(shí)體識(shí)別模型識(shí)別描述文本的商品類別,即提取出描述文本的三元組文本。
2.如權(quán)利要求1所述的基于電商領(lǐng)域表示模型的端到端三元組提取方法,其特征是:
步驟S300中采用BIOE標(biāo)注標(biāo)準(zhǔn)進(jìn)行標(biāo)注。
3.如權(quán)利要求1所述的基于電商領(lǐng)域表示模型的端到端三元組提取方法,其特征是:
步驟S500中,關(guān)系生成模型采用LSTMd模型。
4.基于電商領(lǐng)域表示模型的端到端三元組提取系統(tǒng),其特征是,包括:
第一模塊,用來(lái)利用爬蟲(chóng)工具獲取商品的描述文本,對(duì)描述文本進(jìn)行掩碼處理作為第一訓(xùn)練數(shù)據(jù);
第二模塊,用來(lái)基于chunk-transformers架構(gòu)構(gòu)建表示模型,采用第一訓(xùn)練數(shù)據(jù)訓(xùn)練表示模型;
第三模塊,用來(lái)從第一模塊所爬取的描述文本提取三元組,獲得第二訓(xùn)練數(shù)據(jù),并對(duì)第二訓(xùn)練數(shù)據(jù)進(jìn)行關(guān)系的人工標(biāo)注;
第四模塊,用來(lái)基于Attention-Bi-LSTM構(gòu)建實(shí)體識(shí)別模型,采用已訓(xùn)練的表示模型對(duì)第二訓(xùn)練數(shù)據(jù)進(jìn)行表示,獲得表示向量,采用實(shí)體識(shí)別模型對(duì)表示向量進(jìn)行初步識(shí)別,獲得包含實(shí)體范圍的表示向量;
第五模塊,用來(lái)利用關(guān)系生成模型將第四模塊所獲得表示向量生成實(shí)體的關(guān)系標(biāo)注序列,根據(jù)生成的關(guān)系標(biāo)注序列和真實(shí)標(biāo)注的交叉熵,優(yōu)化實(shí)體識(shí)別模型和關(guān)系生成模型;
第六模塊,用來(lái)使用第二訓(xùn)練數(shù)據(jù)訓(xùn)練關(guān)系生成模型,獲得標(biāo)注,加上實(shí)體識(shí)別模型識(shí)別描述文本的商品類別,即提取出描述文本的三元組文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)電子商務(wù)有限公司;國(guó)網(wǎng)電商科技有限公司,未經(jīng)國(guó)網(wǎng)電子商務(wù)有限公司;國(guó)網(wǎng)電商科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110793647.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





