[發(fā)明專利]一種基于注意力機(jī)制的商品名稱短文本分類方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110307421.9 | 申請日: | 2021-03-23 |
| 公開(公告)號(hào): | CN113157918B | 公開(公告)日: | 2022-07-22 |
| 發(fā)明(設(shè)計(jì))人: | 高楠;陳國鑫;陳磊;楊歸一;方添斌;俞果 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06F40/30;G06N20/00 |
| 代理公司: | 杭州天正專利事務(wù)所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 注意力 機(jī)制 商品名稱 文本 分類 方法 系統(tǒng) | ||
一種基于注意力機(jī)制的商品名稱短文本分類方法,包含:對商品名稱進(jìn)行預(yù)處理,去除非中文字段以及一些特殊字符;通過jieba分詞,將預(yù)處理后的商品短文本分成若干個(gè)詞,去除停用詞,對得到的詞進(jìn)行短補(bǔ)長切,統(tǒng)一詞的長度到事先設(shè)定好的詞個(gè)數(shù);將每個(gè)詞利用Global Entity Linking算法進(jìn)行實(shí)體消歧與鏈接,通過鏈接到百度百科的外部知識(shí)庫,用其結(jié)果對短文本中的詞擴(kuò)充解釋,并將實(shí)體鏈接的結(jié)果利用Bert進(jìn)行word embedding編碼,得到相應(yīng)的特征向量;將得到的向量喂入Transformer網(wǎng)絡(luò),利用self?attention機(jī)制,挖掘不同詞對于稅碼分類的共享程度,賦予不同詞的不同權(quán)重,最后通過Softmax對其進(jìn)行分類,將概率最高的稅碼類別作為商品名稱所屬類別。本發(fā)明還包括實(shí)施上述發(fā)明方法的系統(tǒng)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于注意力機(jī)制的商品名稱短文本分類方法和系統(tǒng),特別是針對商品名稱對應(yīng)稅碼的分類。利用中文文本分詞工具對文本進(jìn)行分詞,將每個(gè)商品名稱的詞進(jìn)行短補(bǔ)長切調(diào)整統(tǒng)一的詞個(gè)數(shù)后,利用Bert對每個(gè)詞進(jìn)行word embedding得到對應(yīng)的詞向量,將詞向量喂入Transformer后,利用注意力機(jī)制,得到各個(gè)詞的權(quán)重信息,最后通過Softmax進(jìn)行分類。本發(fā)明涉及概率模型,語音模型,深度學(xué)習(xí)等領(lǐng)域,具體涉及基于深度學(xué)習(xí)的建模領(lǐng)域。
背景技術(shù)
隨著社會(huì)的不斷發(fā)展,稅碼分類體系越來越復(fù)雜,如何將海量的商品名稱準(zhǔn)確地劃分到對應(yīng)的稅碼分類是一種重要的技術(shù)需求。越來越多的企業(yè)需要開商品發(fā)票,由于交易量的劇增,人工進(jìn)行稅碼分類的方法存在效率不高、成本巨大且分類結(jié)果受到的人偶然性錯(cuò)誤的影響,同時(shí)對稅碼不熟悉的人也難以完成我國高達(dá)4000多種的稅碼分類。因此,利用程序解決繁重的分類問題才是當(dāng)下的趨勢。
商品名稱的稅碼分類存在以下幾個(gè)問題:
(1)商品名稱的記錄大多由人工完成,導(dǎo)致了商品名稱中大多包含很多噪聲,需要濾除其中的噪聲,以減少對稅碼分類的影響。
(2)商品名稱大多是短文本類型,僅有幾個(gè)詞組成,無法有效的提取上下文信息,也導(dǎo)致目前主流的自然語言處理的方法在此問題上受限。
(3)在我國,五級(jí)稅碼分類高達(dá)4000余種,種類繁多,屬于超分類難題,目前很難有有效的方法解決。
目前稅碼分類的方法大致有兩種:
1)關(guān)鍵詞匹配,即構(gòu)造一個(gè)稅碼到關(guān)鍵詞的1:N的映射關(guān)系,然后在給定的商品名稱中匹配相應(yīng)的關(guān)鍵詞,即可完成稅碼分類任務(wù)。
2)基于機(jī)器學(xué)習(xí)的分類方法,即將稅碼匹配的問題轉(zhuǎn)化為一個(gè)分類問題,利用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的模型予以解決。
關(guān)鍵詞匹配的方法,較為簡單,但是嚴(yán)重依賴于關(guān)鍵詞庫的大小以及準(zhǔn)確度,只能匹配到關(guān)鍵詞庫中已經(jīng)存在的一些商品,而且關(guān)鍵詞必須顯式的存在與商品名稱中。如果商品名稱中不包含詞庫中的關(guān)鍵詞,則匹配失效。雖然可以通過一些算法解決關(guān)鍵詞分隔的問題,比如關(guān)鍵詞是“小麥面粉”,而商品名稱是“東北小麥優(yōu)質(zhì)面粉”的情況。但是無法解決若干個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在商品名稱中的情況,目前一些做法是在匹配得到的關(guān)鍵詞中取較長的作為最終的關(guān)鍵詞,但是該策略無法解決全部等長的關(guān)鍵詞,比如商品名稱“鋼筆,附贈(zèng)小瓶墨水”,商品的主體是“鋼筆”,但關(guān)鍵詞庫中也會(huì)同時(shí)匹配得到“墨水”,關(guān)鍵詞匹配的算法無法區(qū)分兩者的權(quán)重,也無法確定按哪個(gè)關(guān)鍵詞匹配對應(yīng)的稅碼。另外,該方法的泛化能力較差,因?yàn)椴煌驹趯ι唐访Q進(jìn)行稅碼匹配時(shí),大都嵌入到專業(yè)的領(lǐng)域,比如電力行業(yè),一些專有名詞較多,普通人甚至從未聽說過,此時(shí)就需要重新構(gòu)造或添加關(guān)鍵詞庫,費(fèi)時(shí)費(fèi)力。因此該方法在大型且覆蓋面較廣的數(shù)據(jù)集上表現(xiàn)并不好。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110307421.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測方法
- 一種評測注意力狀態(tài)的方法及裝置
- 注意力測評方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評估系統(tǒng)及其方法
- 一種注意力檢測方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)
- 智能SKU匹配方法
- 一種發(fā)票的處理方法及系統(tǒng)
- 網(wǎng)絡(luò)購物平臺(tái)的頁面展示方法
- 商品名稱智能匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種商品銷售電子商務(wù)系統(tǒng)及方法
- 商品名稱的處理方法及裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)和電子設(shè)備
- 商品歸類方法、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種對發(fā)票中的商品名稱進(jìn)行歸集的方法、裝置及設(shè)備
- 企業(yè)經(jīng)營范圍判斷方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種商品名稱分類方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)





