[發明專利]自動打標簽的方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201810145692.7 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108399227B | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 陳海濤 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F40/216 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 標簽 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種自動打標簽的方法,其特征在于,包括:
將待打標簽文本進行分詞預處理,得到預處理文本;
將預處理文本輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集;
根據待打標簽文本的關鍵詞集得到初始化轉移矩陣,由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算直至收斂后,得到關鍵詞最終概率分布;
獲取關鍵詞最終概率分布中概率最大值的對應行,獲取概率最大值的對應行所對應關鍵詞,并將所述關鍵詞設置為待打標簽文本的標簽。
2.根據權利要求1所述的自動打標簽的方法,其特征在于,所述將待打標簽文本進行分詞預處理,得到預處理文本,包括:
對待打標簽文本進行分詞,得到分詞后文本;
對分詞后文本包括的分詞一一設置加權值;
刪除分詞后文本中的停用詞,并統計各分詞的詞頻,得到第一三元組;
獲取第一三元組中詞頻大于預設詞頻閾值所對分詞之間的詞語相似度;
若分詞之間的詞語相似度大于預設詞語相似度閾值,保留其中任意一個分詞,得到第二三元組,并將第二三元組作為預處理文本。
3.根據權利要求2所述的自動打標簽的方法,其特征在于,所述詞語逆頻率TF-IDF算法模型為:
其中,TF部分分子ni,j表示詞語ti在文本j中出現的次數,分母表示文本j中所有的詞語頻詞和,IWF部分分子表示語料庫中所有詞語頻數之和,nti表示詞語ti在語料庫中出現的總頻數;
所述將預處理文本輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集,包括:
生成語料庫詞語統計結果集;
獲取預處理文本;
將預處理文本及語料庫詞語統計結果集輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集。
4.根據權利要求1所述的自動打標簽的方法,其特征在于,所述根據待打標簽文本的關鍵詞集得到初始化轉移矩陣中,所述初始化轉移矩陣為n維方陣,n維方陣的維數與關鍵詞集中關鍵詞總個數相等;所述初始的關鍵詞概率分布為每一行值均為1/n的n維列向量;其中,n為與關鍵詞集中關鍵詞總個數相等的正整數;
所述由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算記為Vm=MVm-1,其中,m為正整數,V0為初始的關鍵詞概率分布,M為初始化轉移矩陣。
5.根據權利要求4所述的自動打標簽的方法,其特征在于,所述將待打標簽文本進行分詞預處理,得到預處理文本,之前包括:
爬取待打標簽文本,并存儲至MongoDB數據庫中。
6.一種自動打標簽的裝置,其特征在于,包括:
文本預處理單元,用于將待打標簽文本進行分詞預處理,得到預處理文本;
關鍵詞集獲取單元,用于將預處理文本輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集;
最終概率分布獲取單元,用于根據待打標簽文本的關鍵詞集得到初始化轉移矩陣,由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算直至收斂后,得到關鍵詞最終概率分布;
打標單元,用于獲取關鍵詞最終概率分布中概率最大值的對應行,獲取概率最大值的對應行所對應關鍵詞,并將所述關鍵詞設置為待打標簽文本的標簽。
7.根據權利要求6所述的自動打標簽的裝置,其特征在于,所述文本預處理單元,包括:
分詞單元,用于對待打標簽文本進行分詞,得到分詞后文本;
加權單元,用于對分詞后文本包括的分詞一一設置加權值;
統計單元,用于刪除分詞后文本中的停用詞,并統計各分詞的詞頻,得到第一三元組;
相似度獲取單元,用于獲取第一三元組中詞頻大于預設詞頻閾值所對分詞之間的詞語相似度;
刪詞單元,用于若分詞之間的詞語相似度大于預設詞語相似度閾值,保留其中任意一個分詞,得到第二三元組,并將第二三元組作為預處理文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810145692.7/1.html,轉載請聲明來源鉆瓜專利網。





