[發明專利]新詞識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201811191755.9 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109408818B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種新詞識別方法,其特征在于,所述方法包括:
獲取文本語料,根據預設句子端點,通過N元切分將所述文本語料切分成長度為2-N的候選詞,其中,N為自然數,且N≥2,所述候選詞是指通過切分所述文本語料獲取的文本片段;
判斷所述候選詞是否滿足預設條件;
若所述候選詞滿足所述預設條件,將所述候選詞確定為候選新詞;
判斷所述候選新詞是否包含在所述預設詞庫中;以及
若所述候選新詞不包含在所述預設詞庫中,將所述候選新詞確定為新詞;
所述判斷所述候選詞是否滿足預設條件的步驟包括:
獲取所述候選詞的互信息,并且獲取所述候選詞的詞頻及所述候選詞的句子端點數,所述句子端點數是指所述候選詞的左端點數或者所述候選詞的右端點數,所述左端點數是指所述候選詞的左端點出現的次數,所述右端點數是指所述候選詞的右端點出現的次數;
判斷所述候選詞的詞頻、互信息和句子端點數是否分別大于或等于詞頻第二預設閾值、互信息第二預設閾值以及句子端點數第一預設閾值;
若所述候選詞的詞頻、互信息和句子端點數分別大于或等于所述詞頻第二預設閾值、互信息第二預設閾值以及句子端點數第一預設閾值,判定所述候選詞滿足預設條件。
2.根據權利要求1所述新詞識別方法,其特征在于,所述預設句子端點包括標點符號和預設分割端點,所述預設分割端點是指所述文本語料中除標點符號外預先被設置為句子端點的成分。
3.根據權利要求1所述新詞識別方法,其特征在于,所述判斷所述候選詞是否滿足預設條件的步驟包括:
獲取所述候選詞的互信息和左右信息熵,并且獲取所述候選詞的詞頻,其中,所述左右信息熵是指所述候選詞的左鄰字信息熵和右鄰字信息熵中的較小值;
判斷所述候選詞的詞頻、互信息和左右信息熵是否分別大于或等于詞頻第一預設閾值、互信息第一預設閾值以及左右信息熵第一預設閾值;
若所述候選詞的詞頻、互信息和左右信息熵分別大于或者等于所述詞頻第一預設閾值、互信息第一預設閾值以及左右信息熵第一預設閾值,判定所述候選詞滿足預設條件。
4.根據權利要求1所述新詞識別方法,其特征在于,所述根據預設句子端點,通過N元切分將所述文本語料切分成長度為2-N的候選詞的步驟之前還包括:
使用統一標識符替換所述文本語料中的所述預設句子端點。
5.根據權利要求4所述新詞識別方法,其特征在于,所述若所述候選新詞不包含在所述預設詞庫中,將所述候選新詞確定為新詞的步驟之后還包括:
獲取所述新詞的長度,判斷所述新詞的長度是否大于或者等于預設長度閾值;
若所述新詞的長度大于或者等于所述預設長度閾值,識別所述新詞為長粒度新詞。
6.根據權利要求5所述新詞識別方法,其特征在于,所述若所述候選新詞不包含在所述預設詞庫中,將所述候選新詞確定為新詞的步驟之后還包括:
獲取所述新詞的詞頻,判斷所述新詞的詞頻是否低于預設詞頻閾值;
若所述新詞的詞頻低于所述預設詞頻閾值,識別所述新詞為低頻新詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811191755.9/1.html,轉載請聲明來源鉆瓜專利網。





