[發明專利]一種基于注意力機制的商品名稱短文本分類方法和系統有效
| 申請號: | 202110307421.9 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113157918B | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 高楠;陳國鑫;陳磊;楊歸一;方添斌;俞果 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30;G06N20/00 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 商品名稱 文本 分類 方法 系統 | ||
1.一種基于注意力機制的商品名稱短文本分類方法,包含以下步驟:
(1)對商品名稱進行預處理,只保留中文字段;
(2)通過jieba分詞,將預處理后的商品名稱短文本分成若干個詞,去除停用詞,對得到的詞進行短補長切,統一詞的長度到事先設定好的詞個數;
(3)將每個詞利用Global Entity Linking算法進行實體消歧與鏈接,通過鏈接到百度百科的外部知識庫,用其結果對短文本中的詞擴充解釋,豐富上下文語義信息,并將實體鏈接的結果利用Bert進行word embedding編碼,得到相應的特征向量;具體包含以下步驟:
(3-1)將每個詞利用Global Entity Linking算法進行實體消歧與鏈接,通過鏈接到百度百科的外部知識庫,用其結果對短文本中的詞擴充解釋,豐富上下文語義信息,所述Global Entity Linking算法的公式如下:
其中Γ表示待匹配確定的實體空間集;
·其中φ(mi,ei)是定義的兼容性函數,定義如下:
φ(mi,ei)=f(m,e)×g(m,e) (2)
m表示商品文本中待鏈接的mention;e表示外部知識庫中的實體entity;
f(m,e)是上下文無關的分數,主要與mention的字面意思與知識庫中候選實體上下文之間的不相關的程度有關,定義如下:
其中,p(e|m)表示商品文本中mention與外部知識庫中entity的先驗概率,從外部知識庫中獲取,具體為從鏈接到百度百科中的錨文本中統計估計得到;Em是指從外部知識庫中,可能與mention產生鏈接的實體集合;β表示加權概率,對可靠的實體集合Em通過β來平衡前后的權重;sim(m,e)表示mention和entity的文本相似性,用于約束可能包含噪聲的先驗概率p(e|m),sim(m,e)采用余弦相似度來刻畫;
g(m,e)是上下文相關的分數,主要與mention的字面意思與知識庫中候選實體上下文之間的相關的緊密程度有關,定義如下:
g(m,e)=simt(m,e)×(1-∈+∈×simc(m,e)) (4)
其中simc(m,e)表示m與e之間的余弦相似度;參數∈用于平衡和控制相關性得分的影響;simt(m,e)定義如下:
CT(m)表示商品名稱上下文分詞后的關鍵詞集合;KP(e)表示可能的實體集合;vc(w)表示詞w的向量化表示形式;D(w,m)表示上下文詞w與待鏈接的詞m之間的距離函數,利用詞之間的絕對距離來定義;
·coh(ei,ej)函數定義為上下文mention所確定的實體集,兩兩之間的相關性度量,
定義如下:
coh(ei,ej)=γ×rel(e1,e2)+(1-γ)×sim(e1,e2) (6)
sim(e1,e2)表示歸一化Google距離的否定形式,用于衡量相似性:
其中,E1和E2分別是實體e1和e2從百度百科中獲取的內聯實體集合,E表示整個實體集合;|·|表示集合的個數;利用歸一化Google距離的否定形式來比較實體集合之間隱含的實體的相似性;
rel(e1,e2)用來進一步表示實體之間的關聯性,定義如下:
其中R(e1,e2)表示實體e1和e2之間的關系集合;T(e1,r)表示頭部實體e1和關系r的尾部實體集合;H(r,e2)表示關系r和尾部實體e2的頭部實體集合;參數γ∈[0,1]用于權衡相似性和相關性的權重;
(3-2)將實體鏈接的結果利用Bert進行word embedding編碼,得到相應的特征向量;
(4)將得到的特征向量喂入Transformer網絡,利用self-attention機制,挖掘不同詞對于稅碼分類的共享程度,賦予不同詞不同的權重,最后通過Softmax對其進行分類,將概率最高的稅碼類別作為商品名稱所屬類別,最終確定待分類的商品名稱的稅碼類別標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110307421.9/1.html,轉載請聲明來源鉆瓜專利網。





