[發(fā)明專利]信息提取的方法及裝置、存儲介質(zhì)和處理器有效
| 申請?zhí)枺?/td> | 201910045546.1 | 申請日: | 2019-01-17 |
| 公開(公告)號: | CN111523952B | 公開(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計)人: | 王濤;李林琳;司羅 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06Q30/0601 | 分類號: | G06Q30/0601;G06F40/284;G06F40/289 |
| 代理公司: | 北京博浩百睿知識產(chǎn)權(quán)代理有限責(zé)任公司 11134 | 代理人: | 謝湘寧;張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 提取 方法 裝置 存儲 介質(zhì) 處理器 | ||
本發(fā)明公開了一種信息提取的方法及裝置、存儲介質(zhì)和處理器。其中,該方法包括:獲取目標(biāo)商品的商品信息,其中,通過至少兩種語種標(biāo)注過目標(biāo)商品的商品信息;獲取商品信息的句子向量表達式和商品信息的詞語向量表達式;將句子向量表達式輸入至多個目標(biāo)模型的共享部分,輸出句子特征向量,將詞語向量表達式輸入至共享部分中輸出詞語特征向量,其中,多個目標(biāo)模型的共享部分為多個不同語種的目標(biāo)模型的交集部分,不同語種之間的使用范圍存在差異;基于句子特征向量和詞語特征向量確定商品信息中的目標(biāo)信息。本發(fā)明解決了由于現(xiàn)有技術(shù)中對于不常用的語言的處理通常是借助大量人工標(biāo)注,導(dǎo)致成本較高,處理效率較低的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體而言,涉及一種信息提取的方法及裝置、存儲介質(zhì)和處理器。
背景技術(shù)
跨語言知識遷移是一種借助于已經(jīng)掌握的語言的知識來提升另外一種不熟悉的語言知識的技術(shù)方法。目前世界上已有的語言超過7000種,有些語言如中文和英文,已經(jīng)擁有了比較完善和成熟的處理能力,有些語言如俄語、西班牙語、土耳其語等基本沒有相應(yīng)的處理能力,如果像之前中英等語種一樣從0到1的進行積累,顯然成本非常之高,另外業(yè)務(wù)實際需求也等不了那么長時間。
現(xiàn)有的提升資源稀缺型語種的方法主要是借助人工大量的標(biāo)注數(shù)據(jù),對于很多不常見的語種,如俄語、西班牙語、土耳其語等等,需要借助外包人員進行標(biāo)注,一是需要花費較高的金錢成本,語言越罕見,資源就越稀缺,成本就越高;二是針對外包,技術(shù)人員需要花費很多時間去做前期的培訓(xùn),讓外包人員能完全掌握標(biāo)注的方法和技巧;三是最后的驗收還需要專門的語言專家去做質(zhì)檢,整個流程比較復(fù)雜,涉及人員眾多,難以控制;四是在已有的系統(tǒng)上要想獲得更多的提升,則會需要越來越多的標(biāo)注數(shù)據(jù),邊際成本會指數(shù)級上升。
針對上述的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種信息提取的方法及裝置、存儲介質(zhì)和處理器,以至少解決由于現(xiàn)有技術(shù)中對于不常用的語言的處理通常是借助大量人工標(biāo)注,導(dǎo)致成本較高,處理效率較低的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種信息提取的方法,包括:獲取目標(biāo)商品的商品信息,其中,通過至少兩種語種標(biāo)注過所述目標(biāo)商品的商品信息;獲取所述商品信息的句子向量表達式和所述商品信息的詞語向量表達式;將所述句子向量表達式輸入至多個目標(biāo)模型的共享部分,輸出句子特征向量,將所述詞語向量表達式輸入至所述共享部分中輸出詞語特征向量,其中,所述多個目標(biāo)模型的共享部分為多個不同語種的目標(biāo)模型的交集部分,不同語種之間的使用范圍存在差異;基于所述句子特征向量和所述詞語特征向量確定所述商品信息中的目標(biāo)信息。
進一步地,所述方法還包括:在將所述句子向量表達式輸入至多個目標(biāo)模型的共享部分之前,獲取標(biāo)注數(shù)據(jù),其中,所述標(biāo)注數(shù)據(jù)中包括多個目標(biāo)商品的商品信息和每個商品所屬的葉子類目;確定基于所述標(biāo)注數(shù)據(jù)隨機生成的句子向量表達式和詞語向量表達式;采用所述標(biāo)注數(shù)據(jù)和所述隨機生成的句子向量表達式和詞語向量表達式對多個目標(biāo)模型上目標(biāo)層的參數(shù)進行訓(xùn)練,確定每個目標(biāo)模型上目標(biāo)層的參數(shù),以確定所述共享部分。
進一步地,采用所述標(biāo)注數(shù)據(jù)和所述隨機生成的句子向量表達式和詞語向量表達式對多個目標(biāo)模型上目標(biāo)層的參數(shù)進行訓(xùn)練,確定每個目標(biāo)模型上目標(biāo)層的參數(shù),以確定所述共享部分包括:將所述隨機生成的句子向量表達式輸入至所述多個目標(biāo)模型,輸出句子特征向量,將隨機生成的詞語向量表達式輸入至所述多個目標(biāo)模型,輸出詞語特征向量;根據(jù)所述句子特征向量和所述詞語特征向量確定每個詞語與詞語所在目標(biāo)商品的商品信息的相似度,以確定每個商品的目標(biāo)信息;根據(jù)所述句子特征向量,確定每個目標(biāo)商品的商品信息的所屬葉子類目;基于確定出的每個商品的目標(biāo)信息和確定出的每個目標(biāo)商品的商品信息的所屬葉子類目重新輸入至所述多個目標(biāo)模型,直到確定出的每個商品的目標(biāo)信息與所述標(biāo)注數(shù)據(jù)中標(biāo)注出的每個商品的目標(biāo)信息相同,并且確定出的每個商品所屬的葉子類目與所述標(biāo)注數(shù)據(jù)中的每個商品所屬的葉子類目相同為止,確定出所述多個目標(biāo)模型上目標(biāo)層的參數(shù),以確定所述共享部分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910045546.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





