[發(fā)明專利]文本標(biāo)簽挖掘方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011203145.3 | 申請(qǐng)日: | 2020-11-02 |
| 公開(公告)號(hào): | CN112328655A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 鄭勇升 | 申請(qǐng)(專利權(quán))人: | 中國平安人壽保險(xiǎn)股份有限公司 |
| 主分類號(hào): | G06F16/2458 | 分類號(hào): | G06F16/2458;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳中一聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 李木燕 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 標(biāo)簽 挖掘 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種文本標(biāo)簽挖掘方法,其特征在于,包括:
接收待挖掘文本并獲取與所述待挖掘文本對(duì)應(yīng)的文本關(guān)鍵詞;
對(duì)所述待挖掘文本及其對(duì)應(yīng)的文本關(guān)鍵詞進(jìn)行向量匹配處理,以獲取所述待挖掘文本的文本向量以及所述文本關(guān)鍵詞的詞向量;
根據(jù)所述待挖掘文本的文本向量以及所述文本關(guān)鍵詞的詞向量計(jì)算出所述文本關(guān)鍵詞與所述待挖掘文本之間的相似度值,并根據(jù)所述相似度值確定所述文本關(guān)鍵詞是否被設(shè)定為是所述待挖掘文本的文本標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的文本標(biāo)簽挖掘方法,其特征在于,所述文本標(biāo)簽挖掘方法基于采用深度學(xué)習(xí)算法進(jìn)行模型訓(xùn)練獲得的挖掘模型實(shí)現(xiàn),其中,所述挖掘模型中包括有用于獲取文本向量的第一向量匹配模型以及用于獲取詞向量的第二向量匹配模型;所述對(duì)所述待挖掘文本及其對(duì)應(yīng)的文本關(guān)鍵詞進(jìn)行向量匹配處理,以獲取所述待挖掘文本的文本向量以及所述文本關(guān)鍵詞的詞向量的步驟之前,包括:
采用訓(xùn)練樣本文本訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)獲得所述第一向量匹配模型;以及
對(duì)詞庫中的關(guān)鍵詞進(jìn)行向量表達(dá)獲得所述第二向量匹配模型,其中,所述詞庫通過對(duì)基于訓(xùn)練樣本文本獲得的用于表示訓(xùn)練樣本文本主題的關(guān)鍵詞進(jìn)行統(tǒng)一存儲(chǔ)生成。
3.根據(jù)權(quán)利要求2所述的文本標(biāo)簽挖掘方法,其特征在于,所述采用訓(xùn)練樣本文本訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)獲得所述第一向量匹配模型的步驟,包括:
獲取訓(xùn)練樣本文本;
將所述訓(xùn)練樣本文本按照字段轉(zhuǎn)化為對(duì)應(yīng)的字符向量;
將所述字符向量輸入到卷積神經(jīng)網(wǎng)絡(luò)的嵌入層進(jìn)行映射處理,生成與所述字符向量對(duì)應(yīng)的向量矩陣;
將所述向量矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)卷積層及池化層分別進(jìn)行卷積處理和池化處理,獲取表征所述訓(xùn)練樣本文本的距離數(shù)值;
結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的卷積核數(shù)量,通過卷積神經(jīng)網(wǎng)絡(luò)的全連接層對(duì)所述表征訓(xùn)練樣本文本的距離數(shù)值進(jìn)行向量轉(zhuǎn)化處理,以訓(xùn)練獲得用于獲取文本向量所述第一向量匹配模型。
4.根據(jù)權(quán)利要求2所述的文本標(biāo)簽挖掘方法,其特征在于,所述對(duì)詞庫中的關(guān)鍵詞進(jìn)行向量表達(dá)獲得所述第二向量匹配模型的步驟,包括:
根據(jù)訓(xùn)練樣本文本獲取用于表征所述訓(xùn)練樣本文本主題的關(guān)鍵詞并將所述關(guān)鍵詞存儲(chǔ)于詞庫中;
對(duì)所述詞庫中的關(guān)鍵詞進(jìn)行編碼處理生成與所述關(guān)鍵詞對(duì)應(yīng)的詞編碼;
通過卷積神經(jīng)網(wǎng)絡(luò)的嵌入層對(duì)所述詞編碼進(jìn)行映射處理,生成所述詞庫的詞向量表達(dá)矩陣,所述詞向量表達(dá)矩陣為用于獲取詞向量第二向量匹配模型。
5.根據(jù)權(quán)利要求2所述的文本標(biāo)簽挖掘方法,其特征在于,在所述挖掘模型中還包括有一用于獲取文本關(guān)鍵詞與待挖掘文本之間相似度值的相似度計(jì)算模型,所述根據(jù)所述待挖掘文本的文本向量以及所述文本關(guān)鍵詞的詞向量計(jì)算出所述文本關(guān)鍵詞與所述待挖掘文本之間的相似度值,并根據(jù)所述相似度值確定所述文本關(guān)鍵詞是否被設(shè)定為是所述待挖掘文本的文本標(biāo)簽的步驟之前,包括:
根據(jù)所述訓(xùn)練樣本文本構(gòu)建用于訓(xùn)練生成所述相似度計(jì)算模型的正樣本和負(fù)樣本,其中,所述正樣本包含有一訓(xùn)練樣本文本以及一表達(dá)所述訓(xùn)練樣本文本主題的關(guān)鍵詞;所述負(fù)樣本包含有一訓(xùn)練樣本文本以及表達(dá)其他訓(xùn)練樣本文本主題的關(guān)鍵詞,且所述表達(dá)其他訓(xùn)練樣本文本主題的關(guān)鍵詞不存在于所述訓(xùn)練樣本文本中;
結(jié)合hinge損失函數(shù),將相似度計(jì)算模型訓(xùn)練至正樣本與負(fù)樣本之間的相似關(guān)系滿足預(yù)設(shè)閾值要求。
6.根據(jù)權(quán)利要求1-5任意一項(xiàng)所述的文本標(biāo)簽挖掘方法,其特征在于,所述根據(jù)所述相似度值確定所述文本關(guān)鍵詞是否被設(shè)定為是所述待挖掘文本的文本標(biāo)簽的步驟,包括:
獲取所述待挖掘文本中文本關(guān)鍵詞與所述待挖掘文本之間的相似度值;
將所述相似度值與預(yù)設(shè)的相似度閾值進(jìn)行比對(duì);
若所述相似度值滿足所述預(yù)設(shè)的相似度閾值要求,則將該文本關(guān)鍵詞設(shè)定為是所述待挖掘文本的文本標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險(xiǎn)股份有限公司,未經(jīng)中國平安人壽保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011203145.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





