[發明專利]新詞識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201811191755.9 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109408818B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本申請實施例提供了一種新詞識別方法、裝置、計算機設備及計算機可讀存儲介質。方法包括:獲取文本語料,根據預設句子端點,通過N元切分將文本語料切分成長度為2?N的候選詞,N為自然數,N≥2;判斷候選詞是否滿足預設條件;若候選詞滿足預設條件,將所述候選詞確定為候選新詞;判斷候選新詞是否包含在預設詞庫中;以及若候選新詞不包含在預設詞庫中,將所述候選新詞確定為新詞。本申請實施例基于自然語言處理,通過預設句子端點將文本語料進行準確切分獲取候選詞,提高切分的準確率,通過對候選詞和候選新詞的識別,識別出新詞,有效提高新詞發現的準確率和效率。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種新詞識別方法、裝置、計算機設備及計算機可讀存儲介質。
背景技術
中文分詞作為目前NLP(NLP,英文為Natural?Language?Processing,自然語言處理)項目的基礎技術,其準確率直接關系到NLP項目的最終表現。新詞發現對分詞系統的準確率有直接的影響。傳統的新詞發現技術中,通常先對文本進行分詞,然后猜測未能成功匹配的剩余片段就是新詞,但分詞的準確性依賴于詞庫的完整性,因此導致新詞發現的效果較差。
發明內容
本申請實施例提供了一種新詞識別方法、裝置、計算機設備及計算機可讀存儲介質,能夠解決傳統技術中新詞發現的效果過低的問題。
第一方面,本申請實施例提供了一種新詞識別方法,所述方法包括:獲取文本語料,根據預設句子端點,通過N元切分將所述文本語料切分成長度為2-N的候選詞,其中,N為自然數,且N≥2,所述候選詞是指切分所述文本語料獲取的文本片段;判斷所述候選詞是否滿足預設條件;若所述候選詞滿足所述預設條件,將所述候選詞確定為候選新詞;判斷所述候選新詞是否包含在所述預設詞庫中;以及若所述候選新詞不包含在所述預設詞庫中,將所述候選新詞確定為新詞。
第二方面,本申請實施例還提供了一種新詞識別裝置,包括:切分單元,用于獲取文本語料,根據預設句子端點,通過N元切分將所述文本語料切分成長度為2-N的候選詞,其中,N為自然數,且N≥2,所述候選詞是指切分所述文本語料獲取的文本片段;判斷單元,用于判斷所述候選詞是否滿足預設條件;第一識別單元,用于若所述候選詞滿足所述預設條件,將所述候選詞確定為候選新詞;過濾單元,用于判斷所述候選新詞是否包含在所述預設詞庫中;以及第二識別單元,用于若所述候選新詞不包含在所述預設詞庫中,將所述候選新詞確定為新詞。
第三方面,本申請實施例還提供了一種計算機設備,其包括存儲器及處理器,所述存儲器上存儲有計算機程序,所述處理器執行所述計算機程序時實現所述新詞識別方法。
第四方面,本申請實施例還提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時使所述處理器執行所述新詞識別方法。
本申請實施例提供了一種新詞識別方法、裝置、計算機設備及計算機可讀存儲介質。所述方法包括:獲取文本語料,根據預設句子端點,通過N元切分將所述文本語料切分成長度為2-N的候選詞,其中,N為自然數,且N≥2,所述候選詞是指切分所述文本語料獲取的文本片段;判斷所述候選詞是否滿足預設條件;若所述候選詞滿足所述預設條件,將所述候選詞確定為候選新詞;判斷所述候選新詞是否包含在所述預設詞庫中;以及若所述候選新詞不包含在所述預設詞庫中,將所述候選新詞確定為新詞。本申請實施例基于語音語義中的自然語言處理,在切分文本語料以獲得候選詞時,通過N元切分結合預設句子端點將文本語料進行準確切分,以獲取長度為2-N候選詞,不依賴于任何已有的詞庫,僅僅根據詞的共同特征,將一段大規模語料中可能成詞的文本片段全部提取出來,作為候選詞,通過預設句子端點作為獨立特征,作為切分所述文本語料的詞邊界,減少候選詞的數量,提高切分的準確率和效率,再對所述候選詞進行是否滿足預設條件的識別,若候選詞滿足預設條件,識別為候選新詞,作為具有獨立語義的候選新詞,從而縮小新詞識別的范圍,再把所有抽出來的候選新詞和已有詞庫進行比較,若候選新詞不包含在預設詞庫,識別為新詞,篩選出現有詞庫中未包含的候選新詞為識別出的新詞,可以有效提高新詞發現的準確率、效率和召回率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811191755.9/2.html,轉載請聲明來源鉆瓜專利網。





