[發明專利]一種確定文本標簽的方法及裝置在審
| 申請號: | 202011494762.3 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112541055A | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 黃勇;王宇;邱雪濤 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 侯林林 |
| 地址: | 200135 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 文本 標簽 方法 裝置 | ||
1.一種確定文本標簽的方法,其特征在于,包括:
確定待分類文本的文本特征向量;
針對預設標簽集合中的任一標簽,確定所述標簽的標簽特征向量;基于所述文本特征向量和所述標簽特征向量,確定所述待分類文本隸屬于所述標簽的概率;所述標簽特征向量包括標簽的描述特征向量和標簽在所述預設標簽集合中的網絡關系特征向量;
將概率滿足預設條件的標簽確定為所述待分類文本的標簽。
2.如權利要求1所述的方法,其特征在于,
通過如下方式確定標簽在所述預設標簽集合中的網絡關系特征向量,包括:
構建所述預設標簽集合中各標簽的網絡關系圖;所述網絡關系圖中以各標簽為節點,標簽間的邏輯關系為邊;
通過所述網絡關系圖,將各標簽映射至N維空間,得到各標簽的N維網絡關系特征向量;其中,在所述N維空間中距離越近的標簽相似度越高。
3.如權利要求1所述的方法,其特征在于,
所述基于所述文本特征向量和所述標簽特征向量,確定所述待分類文本隸屬于所述標簽的概率,包括:
將所述文本特征向量和所述標簽特征向量輸入文本分類器,通過所述文本分類器確定所述待分類文本隸屬于所述標簽的概率。
4.如權利要求3所述的方法,其特征在于,
所述文本分類器是通過如下方式訓練得到的,包括:
構建樣本,所述樣本中包括正樣本和負樣本;
針對任一樣本,確定所述樣本中文本的第二文本特征向量和所述樣本中標簽的第二標簽特征向量;將所述第二文本特征向量和所述第二標簽向量輸入至初始模型,根據所述初始模型的輸出及所述樣本的樣本標識進行反向訓練,直至得到所述文本分類器;所述樣本標識用于指示文本樣本為正樣本或負樣本。
5.如權利要求4所述的方法,其特征在于,
負樣本中的相似負樣本通過如下方式得到,包括:
確定與正樣本的第一標簽相似的第二標簽;其中,所述第一標簽的網絡關系特征向量與所述第二標簽的網絡關系特征向量之間的距離小于設定距離;
將所述正樣本的文本、所述第二標簽構建為負樣本。
6.如權利要求4所述的方法,其特征在于,
負樣本中的隨機負樣本通過如下方式得到,包括:
從所述預設標簽集合中隨機確定第三標簽,所述第三標簽與正樣本的第一標簽不同;
將所述正樣本的文本、所述第三標簽構建為負樣本。
7.如權利要求1-6任一項所述的方法,其特征在于,
所述標簽的描述特征向量是通過從網絡抓取的所述標簽的描述信息得到的。
8.一種確定文本標簽的裝置,其特征在于,包括:
文本特征向量確定單元,用于確定待分類文本的文本特征向量;
文本的標簽概率確定單元,用于針對預設標簽集合中的任一標簽,確定所述標簽的標簽特征向量;基于所述文本特征向量和所述標簽特征向量,確定所述待分類文本隸屬于所述標簽的概率;所述標簽特征向量包括標簽的描述特征向量和標簽在所述預設標簽集合中的網絡關系特征向量;
文本的標簽確定單元,用于將概率滿足預設條件的標簽確定為所述待分類文本的標簽。
9.一種計算機設備,其特征在于,包括:
存儲器,用于存儲計算機程序;
處理器,用于調用所述存儲器中存儲的計算機程序,按照獲得的程序執行如權利要求1-7任一項所述的方法。
10.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有程序,當所述程序在計算機上運行時,使得計算機實現執行如權利要求1-7任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011494762.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種混凝土基體腐蝕控制質量檢測方法
- 下一篇:一種不銹鋼鋼纜校直裝置





