[發明專利]一種多模態商品知識圖譜構建方法在審
| 申請號: | 202011498403.5 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112528042A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 陳其賓;李志蕓;李銳;王建華 | 申請(專利權)人: | 濟南浪潮高新科技投資發展有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/951;G06F16/955 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 李桂存 |
| 地址: | 250104 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 商品 知識 圖譜 構建 方法 | ||
1.一種多模態商品知識圖譜構建方法,包括以下步驟:
1)基于商品屬性和業務需求,梳理商品知識圖譜schema;
2)商品多模態數據爬取,確定商品數據來源網站,然后復制URL到編寫的爬蟲工具中,采用自定義爬蟲模式,依次打開商品的URL,選擇采集商品標題、所屬商家等商品信息以及圖像數據,將采集后的數據信息進行導出;
3)商品多模態數據清洗過濾,通過正則表達式等方法刪除爬取的一些雜亂無關信息,通過同義詞替換等方式對商品的關鍵信息進行規范化和補全,通過圖像分類對無關圖像進行過濾;
4)基于文本的商品三元組信息抽取,結合遠程監督等方法,利用基于預訓練模型的實體抽取、關系抽取、屬性抽取方法,抽取文本數據中商品相關的實體-關系-實體和實體-關系-屬性三元組信息,篩選掉不符合要求的三元組數據,并對重復三元組數據進行整合
5)商品三元組信息抽取,篩選掉不符合要求的三元組數據,并對重復三元組數據進行整合;
6)商品三元組數據融合和消歧,針對文本和圖像重復抽取的三元組數據進行融合,針對文本和圖像相悖的抽取結果進行消歧;
7)多模態商品知識圖譜構建,將商品三元組數據導入到圖數據庫中,構建多模態商品知識圖譜。
2.根據權利要求1所述的多模態商品知識圖譜構建方法,其特征在于,所述步驟4包括基于文本的商品三元組信息抽取和基于圖像的商品三元組信息抽取,所述基于文本的商品三元組信息抽取,包括結合遠程監督,利用基于預訓練模型的實體抽取、關系抽取、屬性抽取方法,抽取文本數據中商品相關的實體-關系-實體和實體-關系-屬性三元組信息,篩選掉不符合要求的三元組數據,并對重復三元組數據進行整合;所述基于圖像的商品三元組信息抽取包括,將文本數據和圖像數據作為模型輸入,采用多模態深度學習模型,抽取圖像中商品三元組數據,并對抽取得到的三元組數據進行過濾和整合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南浪潮高新科技投資發展有限公司,未經濟南浪潮高新科技投資發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498403.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種切削控制實驗裝置及實驗方法
- 下一篇:基于關鍵詞聚類的突發事件檢測方法





