[發明專利]一種稽查新詞發現方法及系統在審
| 申請號: | 202011175920.9 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112257416A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 趙郭燚;王宗偉;蘇媛;卜曉陽;姜冬;魏冰;胡方坤;任東英 | 申請(專利權)人: | 國家電網有限公司客戶服務中心;北京數洋智慧科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/289 |
| 代理公司: | 北京鼎真知識產權代理事務所(普通合伙) 11815 | 代理人: | 洪波 |
| 地址: | 300309 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 稽查 新詞 發現 方法 系統 | ||
1.一種稽查新詞發現方法,其特征在于,所述方法包括:
使用n-gram漢語語言模型對句子進行分詞;
將分詞結果根據詞頻高低進行過濾,得到候選詞;
對所述候選詞進行特征提取,得到所述候選詞的特征指標;
根據所述候選詞的特征指標,利用隨機森林算法構建分詞模型并進行訓練;
對所述分詞模型分詞結果進行詞性過濾,得到備選詞;
根據Bloom filter布隆過濾器算法將所述備選詞與詞典比對,過濾掉已存在分詞和停用詞,得到稽核新詞。
2.如權利要求1所述的方法,其特征在于,所述方法還包括:
將所述過濾后的備選詞輸入模型詞典;
根據所述模型詞典建立新詞發現模型,并利用所述新詞發現模型對待分詞句子進行分詞處理。
3.如權利要求1所述的方法,其特征在于,所述將分詞結果根據詞頻高低進行過濾,包括:
獲取所述分詞結果中每個詞的詞頻;
設定詞頻高低閾值,將所述詞頻低于詞頻高低閾值的詞剔除。
4.如權利要求1所述的方法,其特征在于,所述候選詞的特征指標,包括:
計算得到的候選詞互信息和左右鄰接熵、候選詞的詞頻、詞性、左右鄰接熵差值。
5.如權利要求1所述的方法,其特征在于,所述對所述分詞模型分詞結果進行詞性過濾,包括:
獲取所述分詞模型分詞結果;
將包含副詞、介詞的分詞結果剔除。
6.如權利要求1所述的方法,其特征在于,所述根據Bloom filter布隆過濾器算法將所述備選詞與詞典比對,包括:
根據Bloom filter布隆過濾器算法,將所述備選詞分別與通用詞典、基礎詞典和停用詞典比對,過濾掉已經停用的詞;
將所述備選詞與在先的模型詞典對比,過濾掉已經存在于所述模型詞典的備選詞。
7.一種稽核新詞發現系統,其特征在于,所述系統包括:
分詞單元,用于使用n-gram漢語語言模型對句子進行分詞;
詞頻過濾單元,用于將分詞結果根據詞頻高低進行過濾,得到候選詞;
特征提取單元,用于對所述候選詞進行特征提取,得到所述候選詞的特征指標;
模型訓練單元,用于根據所述候選測的特征指標,利用隨機森林算法構建分詞模型并進行訓練;
詞性過濾單元,用于對所述分詞模型分詞結果進行詞性過濾,得到備選詞;
檢測輸出單元,用于根據Bloom filter布隆過濾器算法將所述備選詞與詞典比對,過濾掉已存在分詞和停用詞,得到稽核新詞。
8.如權利要求7所述的系統,其特征在于,所述系統還包括:
模型詞典單元,用于獲取所述過濾后的備選詞,并不斷更新詞庫,建立已存在分詞結果的模型詞典。
9.如權利要求8所述的系統,其特征在于,所述系統還包括:
新詞處理單元,用于根據所述模型詞典建立新詞發現模型,并利用所述新詞發現模型對待分詞句子進行分詞處理。
10.如權利要求7所述的系統,其特征在于,所述系統還包括:
特征指標單元,用于將計算得到的候選詞互信息和左右鄰接熵、候選詞的詞頻、詞性、左右鄰接熵差值作為特征指標進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司客戶服務中心;北京數洋智慧科技有限公司,未經國家電網有限公司客戶服務中心;北京數洋智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011175920.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶自動指節限位機構的模塊化機械手
- 下一篇:一種裝配式室內活動隔墻





