[發明專利]自動打標簽的方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201810145692.7 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108399227B | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 陳海濤 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F40/216 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 標簽 方法 裝置 計算機 設備 存儲 介質 | ||
本申請公開了一種自動打標簽的方法、裝置、計算機設備及存儲介質。該方法包括:將待打標簽文本進行分詞預處理,得到預處理文本;將預處理文本輸入詞語逆頻率TF?IDF算法模型,得到待打標簽文本的關鍵詞集;根據待打標簽文本的關鍵詞集得到初始化轉移矩陣,由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算直至收斂后,得到關鍵詞最終概率分布;獲取關鍵詞最終概率分布中概率最大值的對應行,獲取概率最大值的對應行所對應關鍵詞,并將所述關鍵詞設置為待打標簽文本的標簽。該方法通過自動學習的方式對文章打標簽,避免了手動打標,提高打標效率且節省人力成本。
技術領域
本申請涉及文章分類技術領域,尤其涉及一種自動打標簽的方法、裝置、計算機設備及存儲介質。
背景技術
文章的標簽有助于文章的搜索以及分類,目前常用的方式是手動打標簽,即作者為自己的文章編輯標簽,但是并非所有作者都為自己的文章打標簽。若海量的未打標簽的文章都通過手動打標的方式來實現標簽的添加,則效率極其低下,而且極大的增加了人力成本。
發明內容
本申請提供了一種自動打標簽的方法、裝置、計算機設備及存儲介質,旨在解決現有技術海量的未打標簽的文章都通過手動打標的方式來實現標簽的添加,導致效率極其低下,而且極大增加了人力成本的問題。
第一方面,本申請提供了一種自動打標簽的方法,其包括:
將待打標簽文本進行分詞預處理,得到預處理文本;
將預處理文本輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集;
根據待打標簽文本的關鍵詞集得到初始化轉移矩陣,由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算直至收斂后,得到關鍵詞最終概率分布;
獲取關鍵詞最終概率分布中概率最大值的對應行,獲取概率最大值的對應行所對應關鍵詞,并將所述關鍵詞設置為待打標簽文本的標簽。
第二方面,本申請提供了一種自動打標簽的裝置,其包括:
文本預處理單元,用于將待打標簽文本進行分詞預處理,得到預處理文本;
關鍵詞集獲取單元,用于將預處理文本輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集;
最終概率分布獲取單元,用于根據待打標簽文本的關鍵詞集得到初始化轉移矩陣,由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算直至收斂后,得到關鍵詞最終概率分布;
打標單元,用于獲取關鍵詞最終概率分布中概率最大值的對應行,獲取概率最大值的對應行所對應關鍵詞,并將所述關鍵詞設置為待打標簽文本的標簽。
第三方面,本申請又提供了一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現本申請提供的任一項所述的自動打標簽的方法。
第四方面,本申請還提供了一種存儲介質,其中所述存儲介質存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當被處理器執行時使所述處理器執行本申請提供的任一項所述的自動打標簽的方法。
本申請提供一種自動打標簽的方法、裝置、計算機設備及存儲介質。該方法將待打標簽文本進行分詞預處理,得到預處理文本;將預處理文本輸入詞語逆頻率TF-IDF算法模型,得到待打標簽文本的關鍵詞集;根據待打標簽文本的關鍵詞集得到初始化轉移矩陣,由初始化轉移矩陣及初始的關鍵詞概率分布經過多次迭代相乘運算直至收斂后,得到關鍵詞最終概率分布;獲取關鍵詞最終概率分布中概率最大值的對應行,獲取概率最大值的對應行所對應關鍵詞,并將所述關鍵詞設置為待打標簽文本的標簽。該方法通過自動學習的方式對文章打標簽,避免了手動打標,提高打標效率且節省人力成本。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810145692.7/2.html,轉載請聲明來源鉆瓜專利網。





