[發明專利]文本標簽挖掘方法、裝置、設備及存儲介質在審
| 申請號: | 202011203145.3 | 申請日: | 2020-11-02 |
| 公開(公告)號: | CN112328655A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 鄭勇升 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 李木燕 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標簽 挖掘 方法 裝置 設備 存儲 介質 | ||
本申請適用于自然語言處理、機器學習技術領域,提供一種文本標簽挖掘方法、裝置、設備及存儲介質,其方法包括:接收待挖掘文本并獲取與待挖掘文本對應的文本關鍵詞;對待挖掘文本及其對應的文本關鍵詞進行向量匹配處理,以獲取待挖掘文本的文本向量以及文本關鍵詞的詞向量;根據待挖掘文本的文本向量以及文本關鍵詞的詞向量計算出文本關鍵詞與待挖掘文本之間的相似度值,并根據相似度值確定文本關鍵詞是否被設定為是待挖掘文本的文本標簽。上述方法通過文本向量與詞向量匹配的方式來確定的文本標簽,可以準確地表達文本的主題,解決傳統的文本標簽生成方法中不能準確表達文章主題的問題,還可以幫助用戶對文檔內容進行正確的歸類和理解。
技術領域
本申請涉及自然語言處理、機器學習技術領域,尤其涉及一種文本標簽挖掘方法、裝置、設備及存儲介質。
背景技術
隨著互聯網技術的發展,網絡上的信息量與日俱增,各類信息充斥于互聯網,而每個人感興趣的信息只是其中的一小部分,如何幫助用戶查找到其感興趣的信息變得越來越難。目前無論是網絡文本還是紙版文本中,通常會采用一些文本標簽來代表文本內容,比如閱讀新聞、論文時所看到的關鍵字標簽。現有技術中傳統文本標簽生成方式通常是按照預先設定好的關鍵詞提取規則從標簽庫中進行匹配獲得,雖然此種方式限定了關鍵詞會落入標簽庫中,但是這種方式挖掘得到的文本標簽也難以準確地表達文本的主題,使得用戶難以對文檔內容進行正確的歸類和理解。
發明內容
有鑒于此,本申請實施例提供了一種文本標簽挖掘方法、裝置、設備及存儲介質,可以通過向量匹配的方式準確地表達文本的主題,解決了傳統文本標簽生成不能準確表達文章主題的問題,也可以幫助用戶對文檔內容進行正確的歸類和理解。
本申請實施例的第一方面提供了一種文本標簽挖掘方法,包括:
接收待挖掘文本并獲取與所述待挖掘文本對應的文本關鍵詞;
對所述待挖掘文本及其對應的文本關鍵詞進行向量匹配處理,以獲取所述待挖掘文本的文本向量以及所述文本關鍵詞的詞向量;
根據所述待挖掘文本的文本向量以及所述文本關鍵詞的詞向量計算出所述文本關鍵詞與所述待挖掘文本之間的相似度值,并根據所述相似度值確定所述文本關鍵詞是否被設定為是所述待挖掘文本的文本標簽。
結合第一方面,在第一方面的第一種可能實現方式中,所述文本標簽挖掘方法基于采用深度學習算法進行模型訓練獲得的挖掘模型實現,其中,所述挖掘模型中包括有用于獲取文本向量的第一向量匹配模型以及用于獲取詞向量的第二向量匹配模型;所述對所述待挖掘文本及其對應的文本關鍵詞進行向量匹配處理,以獲取所述待挖掘文本的文本向量以及所述文本關鍵詞的詞向量的步驟之前,包括:
采用訓練樣本文本訓練卷積神經網絡獲得所述第一向量匹配模型;以及
對詞庫中的關鍵詞進行向量表達獲得所述第二向量匹配模型,其中,所述詞庫通過對基于訓練樣本文本獲得的用于表示訓練樣本文本主題的關鍵詞進行統一存儲生成。
結合第一方面的第一種可能實現方式,在第一方面的第二種可能實現方式中,所述采用訓練樣本文本訓練卷積神經網絡獲得所述第一向量匹配模型的步驟,包括:
獲取訓練樣本文本;
將所述訓練樣本文本按照字段轉化為對應的字符向量;
將所述字符向量輸入到卷積神經網絡的嵌入層進行映射處理,生成與所述字符向量對應的向量矩陣;
將所述向量矩陣輸入到卷積神經網絡卷積層及池化層分別進行卷積處理和池化處理,獲取表征所述訓練樣本文本的距離數值;
結合卷積神經網絡的卷積核數量,通過卷積神經網絡的全連接層對所述表征訓練樣本文本的距離數值進行向量轉化處理,以訓練獲得用于獲取文本向量所述第一向量匹配模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011203145.3/2.html,轉載請聲明來源鉆瓜專利網。





