[發明專利]標簽映射方法、系統、計算機可讀存儲介質在審
| 申請號: | 202110070964.3 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112818117A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 李明玉 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/30;G06Q40/04 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 映射 方法 系統 計算機 可讀 存儲 介質 | ||
本發明公開一種標簽映射方法、系統、計算機可讀存儲介質,其中映射方法包括以下步驟:獲取目標文本;對所述目標文本進行概念詞抽取,獲得相應的概念詞;計算概念詞與預設的各候選標簽的字面相似度及語義相似度,并根據字面相似度和語義相似度生成所述概念詞與所述候選標簽的相似得分;基于所述相似得分提取相應的候選標簽,獲得與所述目標文本相對應的目標標簽。本發明基于概念詞和候選標簽的相似程度進行標簽映射,無需預先配置映射規則以及映射所需的近義詞表,有效降低人工映射成本;本發明結合字面相似度和語義相似度兩個維度,對概念詞和候選標簽的相似程度進行評分,能夠有效提高準召率。
技術領域
本發明涉及數據處理領域,尤其涉及一種標簽映射方法、系統、計算機可讀存儲介質。
背景技術
現今標簽映射方法往往采用簡單的映射規則,但此種方法僅適用于候選標簽數量較少且所標識的類別分類明確的場景;
當候選標簽數量較多且具有時效性和交叉性時,如候選標簽變動頻繁,且各候選標簽的語義間存在包含或交叉關系時,如采用映射規則進行標簽映射,該映射規則較為復雜,且容易出現邏輯上的沖突,當候選標簽發生變動時需要對映射規則進行更新,故難以長期維護且召回率不高。
例如在金融財經領域,“事件”往往對股票、基金的價格有著重要的影響,財經快訊作為一種可以快速獲得金融消息(事件)的新聞文本,受到了廣大投資者和金融從業者的關注。分析財經快訊文本,將財經文本自動映射到相應的概念板塊,可以輔助投資者作投資決策、幫助金融從業者進行行業分析、促進理財產品供應商提升銷售業績。
但概念板塊對應的標簽詞緊隨熱點,具有鮮明的時效性和交叉性,難以通過分類算法進行標簽映射,往往需要人工提取標簽或通過映射規則自動映射標簽,而映射規則的配置和維護亦需要消耗大量的人力且召回率不高。
發明內容
本發明提供了一種標簽映射方法、系統、計算機可讀存儲介質,本發明所提供的標簽映射方法能夠自動從候選標簽中提取與目標文本相對應的目標標簽,與現有基于映射規則所實現的方案相比,無需人工基于候選標簽進行規則配置、邏輯校驗等工作,在提高映射效率和召回率的同時能夠有效減少人力成本。
為了解決上述技術問題,本發明通過下述技術方案得以解決:
一種標簽映射方法,包括以下步驟:
獲取目標文本;
對所述目標文本進行概念詞抽取,獲得相應的概念詞(所述概念詞的數量為至少一個);
計算概念詞與預設的各候選標簽的字面相似度及語義相似度,并根據字面相似度和語義相似度生成所述概念詞與所述候選標簽的相似得分;
基于所述相似得分提取相應的候選標簽,獲得與所述目標文本相對應的目標標簽。
作為一種可實施方式:
提取各概念詞所對應的關聯標簽,該關聯標簽為相似得分大于預設的詞相似度閾值的候選標簽;
統計各類關聯標簽所對應的相似總分,該相似總分為相同的關聯標簽所對應的相似得分的和,即,統計同一關聯標簽與各概念詞的相似得分的累加值,獲得相應的相似總分。
提取相似總分大于預設的文本相似度閾值的關聯標簽,獲得與所述目標文本相對應的目標標簽。
作為一種可實施方式:
提取目標文本中各字符所對應的字型嵌入特征向量和語義嵌入特征向量;
將字型嵌入特征向量和語義嵌入特征向量進行拼接和降維,獲取結合字符特征向量;
將結合字符特征向量輸入條件隨機場層,通過調整訓練參數獲取輸出的字符標簽;
根據字符標簽從目標文本中抽取概念詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110070964.3/2.html,轉載請聲明來源鉆瓜專利網。





