[發明專利]一種稽查新詞發現方法及系統在審
| 申請號: | 202011175920.9 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112257416A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 趙郭燚;王宗偉;蘇媛;卜曉陽;姜冬;魏冰;胡方坤;任東英 | 申請(專利權)人: | 國家電網有限公司客戶服務中心;北京數洋智慧科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/289 |
| 代理公司: | 北京鼎真知識產權代理事務所(普通合伙) 11815 | 代理人: | 洪波 |
| 地址: | 300309 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 稽查 新詞 發現 方法 系統 | ||
本發明涉及一種稽查新詞發現方法,所述方法包括:首先用n?gram算法模型進行分詞,根據閾值過濾掉詞頻較小的候選詞;然后計算候選詞的互信息和左右鄰接熵,提取候選詞詞性組合特征,并選用隨機森林算法構建模型對特征指標進行訓練測試,確保新詞的準確性;最后在詞性過濾之后,引入bloom filter算法提高匹配效率,最終輸出新詞發現模型結果。本發明提供的方案,可以幫助分析人員快速、準確發現稽查工單中出現的新詞,構建稽查全專業基礎詞庫,支撐工單文本分類識別,提高中心稽查工單分析能力。
技術領域
本發明涉及營業廳稽查技術領域,尤其涉及一種稽查新詞發現方法及系統。
背景技術
現有技術中,電力行業的營銷稽查月均工單量達10萬件以上,而且有很多是新業務,現有的技術無法識別稽查新詞,更未實現新業務工單自動分析、判別,影響工作效率和稽查質量。
電力行業詞語具有自身專業性和特殊性,而且隨著業務開展,會不斷涌現新的詞語,如果單一地通過統計特征進行新詞發現,無法確保新詞的準確率;另一方面,詞語的各個字之存在一定的相關性,如果僅是人為對單一值進行判定,忽視這種相關性,無法確保新詞的正確性。
對電力行業進行新詞發現的業務,現有技術一般采用基于統計的新詞發現方法和人為確定詞性特征的判定標準,無法結合電力實際的詞語關系提取詞性特征,無法提供科學性的詞性特征判定依據。
現有使用的新詞發現方法多是基于統計特征的新詞發現,但是電力行業的專業詞匯較多,使用單一方法,準確率低。詞語作為一個可以獨立存在的語言單元,詞語的各個字之間存在一定的相關性,對于互信息和鄰接熵僅通過人為設置判定標準,缺乏科學性和客觀性。同時,電力行業詞匯量龐大,詞語去重有很多方法,但是很難解決去重的時間和空間問題。
因而,對于電力行業的新詞發現或者新詞發現方法的構建,目前業內沒有有效的解決方案,亟需要一種新的方案可以解決行業內存在的新詞發現方面的問題。
發明內容
本發明提供一種稽核新詞發現方法及系統,解決現有技術中對電力行業新詞發現存在的不及時、不全面、存在錯判漏判的問題。
根據本發明的一個方面,提供一種稽查新詞發現方法,包括:
使用n-gram漢語語言模型對句子進行分詞;
將分詞結果根據詞頻高低進行過濾,得到候選詞;
對所述候選詞進行特征提取,得到所述候選詞的特征指標;
根據所述候選詞的特征指標,利用隨機森林算法構建分詞模型并進行訓練;
對所述分詞模型分詞結果進行詞性過濾,得到備選詞;
根據Bloom filter布隆過濾器算法將所述備選詞與詞典比對,過濾掉已存在分詞和停用詞,得到稽核新詞。
所述方法還包括:
將所述過濾后的備選詞輸入模型詞典;
根據所述模型詞典建立新詞發現模型,并利用所述新詞發現模型對待分詞句子進行分詞處理。
所述將分詞結果根據詞頻高低進行過濾,包括:
獲取所述分詞結果中每個詞的詞頻;
設定詞頻高低閾值,將所述詞頻低于詞頻高低閾值的詞剔除。
所述候選詞的特征指標,包括:
計算得到的候選詞互信息和左右鄰接熵、候選詞的詞頻、詞性、左右鄰接熵差值。
所述對所述分詞模型分詞結果進行詞性過濾,包括:
獲取所述分詞模型分詞結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司客戶服務中心;北京數洋智慧科技有限公司,未經國家電網有限公司客戶服務中心;北京數洋智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011175920.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶自動指節限位機構的模塊化機械手
- 下一篇:一種裝配式室內活動隔墻





