[發明專利]標簽映射方法、系統、計算機可讀存儲介質在審
| 申請號: | 202110070964.3 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112818117A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 李明玉 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/30;G06Q40/04 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 映射 方法 系統 計算機 可讀 存儲 介質 | ||
1.一種標簽映射方法,其特征在于包括以下步驟:
獲取目標文本;
對所述目標文本進行概念詞抽取,獲得相應的概念詞;
計算概念詞與預設的各候選標簽的字面相似度及語義相似度,并根據字面相似度和語義相似度生成所述概念詞與所述候選標簽的相似得分;
基于所述相似得分提取相應的候選標簽,獲得與所述目標文本相對應的目標標簽。
2.根據權利要求1所述的標簽映射方法,其特征在于:
提取各概念詞所對應的關聯標簽,該關聯標簽為相似得分大于預設的詞相似度閾值的候選標簽;
統計各類關聯標簽所對應的相似總分,該相似總分為相同的關聯標簽所對應的相似得分的和;
提取相似總分大于預設的文本相似度閾值的關聯標簽,獲得與所述目標文本相對應的目標標簽。
3.根據權利要求2所述的標簽映射方法,其特征在于:
提取目標文本中各字符所對應的字型嵌入特征向量和語義嵌入特征向量;
將字型嵌入特征向量和語義嵌入特征向量進行拼接和降維,獲取結合字符特征向量;
將結合字符特征向量輸入條件隨機場層,通過調整訓練參數獲取輸出的字符標簽;
根據字符標簽從目標文本中抽取概念詞。
4.根據權利要求3所述的標簽映射方法,其特征在于:
所述字型嵌入特征向量為五筆字型嵌入特征向量。
5.根據權利要求1至4任一所述的標簽映射方法,其特征在于,計算字面相似度的步驟為:
計算概念詞與候選標簽的Levenshtein相似度和Jaccard系數,并根據Levenshtein相似度和Jaccard系數計算獲得所述概念詞與所述候選標簽的字面相似度。
6.根據權利要求1至4任一所述的標簽映射方法,其特征在于,計算語義相似度的具體步驟為:
提取與概念詞相對應的文本詞向量,并提取與候選標簽相對應的標簽詞向量;
計算文本詞向量與標簽詞向量的余弦相似度、歐式距離相似度和Pearson系數,并根據余弦相似度、歐式距離相似度和Pearson系數計算獲得所述概念詞與所述候選標簽的語義相似度。
7.根據權利要求1至4任一所述的標簽映射方法,其特征在于:
目標文本為屬于行業類別的財經快訊文本;
目標標簽為所述財經快訊文本相對應的概念板塊標簽。
8.一種標簽映射系統,其特征在于包括:
獲取模塊,用于獲取目標文本;
抽取模塊,用于對所述目標文本進行概念詞抽取,獲得相應的概念詞;
相似度計算模塊,用于計算概念詞與預設的各候選標簽的字面相似度及語義相似度,并根據字面相似度和語義相似度生成所述概念詞與所述候選標簽的相似得分;
映射模塊,用于基于所述相似得分提取相應的候選標簽,獲得與所述目標文本相對應的目標標簽。
9.根據權利要求8所述的標簽映射系統,其特征在于,所述映射模塊包括:
第一提取單元,用于提取各概念詞所對應的關聯標簽,該關聯標簽為相似得分大于預設的詞相似度閾值的候選標簽;
歸并單元,用于統計各類關聯標簽所對應的相似總分,該相似總分為相同的關聯標簽所對應的相似得分的和;
第二提取單元,用于提取相似總分大于預設的文本相似度閾值的關聯標簽,獲得與所述目標文本相對應的目標標簽。
10.一種計算機可讀存儲介質,其存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1至7任意一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110070964.3/1.html,轉載請聲明來源鉆瓜專利網。





