[發明專利]一種基于人工智能的文本挖掘方法、相關裝置及設備有效
| 申請號: | 202011001027.4 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN111931501B | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 蔣杰;杜廣雷;石志林;張長旺;張紀紅 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06N20/00 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 李杭 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 文本 挖掘 方法 相關 裝置 設備 | ||
本申請公開了一種基于人工智能的文本挖掘方法,該方法可涉及大數據領域,本申請包括:獲取領域候選詞所對應的領域候選詞特征;根據領域候選詞特征,獲取領域候選詞所對應的詞質量分值;根據領域候選詞所對應的詞質量分值確定新詞;根據新詞獲取關聯文本;若根據關聯文本確定領域種子詞滿足領域新詞挖掘條件,則確定領域種子詞為領域新詞。本申請可以基于機器學習算法自動從領域候選詞中篩選出新詞,避免了人工設定大量特征閾值的過程,從而降低了人工成本,由此,能夠很好地適應互聯網時代快速出現的特異化新詞。
技術領域
本申請涉及自然語言處理領域以及大數據處理領域,尤其涉及一種基于人工智能的文本挖掘方法、相關裝置及設備。
背景技術
在自然語言處理(Nature Language processing,NLP)研究領域中,詞語一直是重要的研究對象。在中文環境下,詞語之間并無明顯的分割字符,主要借助已有詞庫和統計規則進行分詞。隨著社會和社交網絡的發展,人們使用語言文字的習慣也發生著變化,這使得新詞層出不窮。為此,新詞發現成為NLP處理中一項重要的任務。
目前,可基于統計方法發現新詞,該方法首先需要獲取候選詞,然后根據候選詞統計特征值得出成詞概率,在實踐中,通常結合凝固度和自由度作為候選詞的統計特征,即選擇凝固度和自由度超過一定特征閥值的候選詞作為新詞。
然而,在不同的領域中,文本的內容和長短差別非常大,例如,詞語“王者”在新聞中的統計特征與社交群組名稱上的統計特征差異很大。因此,基于統計方法發現新詞往往需要人工設定大量特征閥值,從而導致人工成本較高。
發明內容
本申請實施例提供了一種基于人工智能的文本挖掘方法、相關裝置及設備,可以采用機器學習算法通過領域候選詞篩選出新詞,避免了人工設定大量特征閾值的過程,從而降低了人工成本,由此,能夠很好地適應互聯網時代快速出現的特異化新詞。
有鑒于此,本申請一方面提供一種基于人工智能的文本挖掘方法,包括:
獲取領域候選詞所對應的領域候選詞特征;
根據領域候選詞特征,獲取領域候選詞所對應的詞質量分值;
根據領域候選詞所對應的詞質量分值確定新詞;
根據新詞獲取關聯文本;
若根據關聯文本確定領域種子詞滿足領域新詞挖掘條件,則確定領域種子詞為領域新詞。
本申請另一方面提供一種文本挖掘裝置,包括:
獲取模塊,用于獲取領域候選詞所對應的領域候選詞特征;
獲取模塊,還用于根據領域候選詞特征,獲取領域候選詞所對應的詞質量分值;
確定模塊,用于根據領域候選詞所對應的詞質量分值確定新詞;
獲取模塊,還用于根據新詞獲取關聯文本;
確定模塊,還用于若根據關聯文本確定領域種子詞滿足領域新詞挖掘條件,則確定領域種子詞為領域新詞。
在一種可能的設計中,在本申請實施例的另一方面的一種實現方式中,
獲取模塊,具體用于從領域語料庫中獲取語句;
對語句中的每個語句進行分詞處理,得到文本序列;
根據文本序列獲取領域候選詞;
根據領域候選詞獲取領域候選詞特征。
在一種可能的設計中,在本申請實施例的另一方面的另一種實現方式中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011001027.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防偽檢測方法及裝置
- 下一篇:一種防偽檢測方法及裝置





