[發明專利]基于電商領域表示模型的端到端三元組提取方法及系統在審
| 申請號: | 202110793647.4 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113282757A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 張賓;孫喜民;周晶;王帥;劉丹;鄭斌;孫博;李鑫 | 申請(專利權)人: | 國網電子商務有限公司;國網電商科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/951;G06F40/117;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 成都華復知識產權代理有限公司 51298 | 代理人: | 龐啟成 |
| 地址: | 100053 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 表示 模型 端到端 三元 提取 方法 系統 | ||
本發明公開了基于電商領域表示模型的端到端三元組提取方法及系統,該方法包括:S100:利用爬蟲工具獲取商品的描述文本,對描述文本進行掩碼處理作為訓練數據;S200:基于chunk?transformers架構構建表示模型,對表示模型進行訓練;S300:利用基于Attention?BiLSTM的實體識別模型對訓練數據進行初步識別;S400:生成實體的關系標注序列;S500:對訓練數據進行人工標注;S600:使用標注后的訓練數據對三元組抽取模型進行訓練,采用訓練后的三元組抽取模型進行三元組抽取。本發明構建了基于電商領域的表示模型,來實現商品描述文本的專業化理解,提升了電商描述文本識別的準確率。
技術領域
本發明涉及信息抽取技術領域,具體涉及基于電商領域表示模型的端到端三元組提取方法及系統。
背景技術
隨著互聯網技術的發展和普及,網絡中存在大量的來自各領域的非結構化文本,通過抽取文本中的三元組可以建立領域知識圖譜,應用在各領域的檢索、查詢、問答等下游任務中。
三元組抽取是級聯任務,分為兩個子任務:實體抽取和關系分類。例如,“X品牌手環6NFC版智能血氧心率監測藍牙男女款運動計步器天氣壓力睡眠手表手環5NFC升級新品健康手環”這條描述手環這個大類中的一個商品A的電商文本,先抽取出相關的屬性實體“X品牌手環6”、“NFC”、“血氧心率檢測”、“藍牙”等,然后對屬性關系進行分類關聯,確定其“型號”為“X品牌手環6”,“功能”有“NFC”、“血氧心率檢測”、“藍牙”等,從而構成多個三元組,即商品A的一個知識圖譜。目前這種順序學習的方法阻礙了實體抽取和關系分類之間的信息共享。
近年,有研究者提出了基于神經網絡模型的端到端方法,將實體識別和關系識別都看做序列標記任務,基于雙向長短時記憶網絡(Bi-LSTM)實現編碼器-解碼器模型對實體和關系進行標注,以提取出三元組。這種端到端的方法不僅可以直接獲取三元組,還可以緩解級聯帶來的錯誤傳播問題,但是不適用于具有重疊實體的三元組抽取。
當面向電商領域時,商品描述文本并不遵循通用領域的文本表達規則,使用現有方法提取三元組信息,會存在語義理解不充分的問題,且商品描述文本中一般不包含屬性關系的描述,給實體識別和關系分類的融合帶來了困難。
發明內容
為解決電商領域商品描述文本的理解問題以及實體識別和關系分類的融合問題,本發明提供了基于電商領域表示模型的端到端三元組提取方法及系統。
本發明提供的基于電商領域表示模型的端到端三元組提取方法,包括:
S100:利用爬蟲工具獲取商品的描述文本,對描述文本進行掩碼處理作為第一訓練數據;
S200:基于chunk-transformers架構構建表示模型,采用第一訓練數據訓練表示模型;
S300:從步驟S100所爬取的描述文本提取三元組,獲得第二訓練數據,并對第二訓練數據進行關系的人工標注;
S400:基于Attention-Bi-LSTM構建實體識別模型,采用已訓練的表示模型對第二訓練數據進行表示,獲得表示向量,采用實體識別模型對表示向量進行初步識別,獲得包含實體范圍的表示向量;
S500:利用關系生成模型將步驟S400所獲得表示向量生成實體的關系標注序列,根據生成的關系標注序列和真實標注的交叉熵,優化實體識別模型和關系生成模型;
S600:使用第二訓練數據訓練關系生成模型,獲得標注,加上實體識別模型識別描述文本的商品類別,即提取出描述文本的三元組文本。
進一步的,步驟S300中采用BIOE標注標準進行標注。
進一步的,步驟S500中,關系生成模型采用LSTMd模型。
本發明提供的基于電商領域表示模型的端到端三元組提取系統,包括:
第一模塊,用來利用爬蟲工具獲取商品的描述文本,對描述文本進行掩碼處理作為第一訓練數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網電子商務有限公司;國網電商科技有限公司,未經國網電子商務有限公司;國網電商科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110793647.4/2.html,轉載請聲明來源鉆瓜專利網。





