[發(fā)明專利]文本標簽確定方法、裝置、終端及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011065821.5 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112131350A | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設計)人: | 劉剛 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9535;G06F16/783;G06F40/30;G06F40/289 |
| 代理公司: | 北京三高永信知識產(chǎn)權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標簽 確定 方法 裝置 終端 可讀 存儲 介質(zhì) | ||
1.一種文本標簽確定方法,其特征在于,所述方法包括:
對目標文本進行分詞處理,得到分詞集合,所述分詞集合中包括所述目標文本分詞得到的分詞詞匯,所述目標文本為待確定標簽的文本;
根據(jù)所述分詞詞匯的上下文關系,確定所述目標文本的第一候選標簽;
根據(jù)所述分詞詞匯在所述目標文本中的第一頻率參數(shù),和所述分詞詞匯在文本集合中的第二頻率參數(shù),確定所述目標文本的第二候選標簽;
根據(jù)所述第一候選標簽和所述第二候選標簽確定所述目標文本的標簽。
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述第一候選標簽和所述第二候選標簽確定所述目標文本的標簽,包括:
響應于所述第一候選標簽和所述第二候選標簽之間存在交集的情況,對所述第一候選標簽和所述第二候選標簽取交集,得到所述目標文本的標簽。
3.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
響應于所述第一候選標簽和所述第二候選標簽之間不存在交集的情況,根據(jù)預設的選擇規(guī)則,從所述第一候選標簽和所述第二候選標簽中確定所述目標文本的標簽。
4.根據(jù)權利要求1至3任一所述的方法,其特征在于,所述根據(jù)所述第一頻率參數(shù)和所述第二頻率參數(shù),確定所述目標文本的第二候選標簽,包括:
根據(jù)所述第一頻率參數(shù)和所述第二頻率參數(shù),確定所述分詞詞匯對應的詞匯頻率;
將所述詞匯頻率符合頻率要求的分詞詞匯,確定為所述目標文本的第二候選標簽。
5.根據(jù)權利要求4所述的方法,其特征在于,所述根據(jù)所述第一頻率參數(shù)和所述第二頻率參數(shù),確定所述分詞詞匯對應的詞匯頻率,包括:
確定所述第一頻率參數(shù)和所述第二頻率參數(shù)之積,作為所述分詞詞匯對應的所述詞匯頻率。
6.根據(jù)權利要求1至3任一所述的方法,其特征在于,所述根據(jù)所述分詞詞匯的上下文關系,確定所述目標文本的第一候選標簽,包括:
對所述分詞詞匯進行特征提取,得到所述分詞詞匯的詞匯向量;
對所述詞匯向量結合上下文詞匯向量進行特征分析,得到所述分詞詞匯對應的實體概率;
根據(jù)所述實體概率從所述分詞詞匯中確定所述目標文本的第一候選標簽。
7.根據(jù)權利要求6所述的方法,其特征在于,所述實體概率中包括第一概率、第二概率和第三概率,所述第一概率表示所述分詞詞匯屬于標簽實體的概率,所述第二概率表示所述分詞詞匯不屬于所述標簽實體的概率,所述第三概率表示所述分詞詞匯屬于標簽實體內(nèi)對應實體的概率;
所述對所述詞匯向量結合上下文詞匯向量進行特征分析,得到所述分詞詞匯對應的實體概率,包括:
對所述詞匯向量結合上下文詞匯向量進行特征分析,得到所述詞匯向量對應的所述第一概率、所述第二概率以及所述第三概率;
所述根據(jù)所述實體概率從所述分詞詞匯中確定所述目標文本的第一候選標簽,包括:
從所述第一概率、所述第二概率以及所述第三概率中,將數(shù)值最高的概率確定為所述分詞詞匯的所述實體概率;
將所述實體概率對應的所述分詞詞匯作為所述第一候選標簽。
8.根據(jù)權利要求7所述的方法,其特征在于,所述方法,還包括:
濾除所述實體概率對應為所述第二概率的所述分詞詞匯;
根據(jù)所述第一概率和所述第三概率確定所述實體概率對應的所述分詞詞匯,得到所述第一候選標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011065821.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





