[發明專利]一種面向多數據源的社保類實體識別方法及裝置有效
| 申請號: | 201710101834.5 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106933802B | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 李雪莉;關毅;黃玉麗;徐國春 | 申請(專利權)人: | 黑龍江特士信息技術有限公司;哈爾濱工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06Q40/08;G06Q50/22 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;賈磊 |
| 地址: | 150000 黑龍江省哈爾濱經開區哈*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 多數 社保 實體 識別 方法 裝置 | ||
本發明提供了一種面向多數據源的社保類實體識別方法及裝置,涉及實體識別技術領域。方法包括:獲取原始數據中的待處理語句;將待處理語句進行單字切分,確定每個文字;根據預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據待處理語句的實體標記序列,確定待處理語句的第一組候選實體;根據預先設置的社保類術語切分策略,對待處理語句進行術語切分,確定第二組候選實體;對各候選實體進行篩選,分別形成第一組社保類候選實體和第二組社保類候選實體;根據預先設置的判斷策略選擇第一組社保類候選實體或第二組社保類候選實體作為所述待處理語句中的社保類實體。
技術領域
本發明涉及實體識別技術領域,尤其涉及一種面向多數據源的社保類實體識別方法及裝置。
背景技術
當前,社會保障體系建設是全球難度最大、問題最多、壓力最突出的公共服務領域之一。我國目前對社會保證體系建設十分重視,為了有效管理和研究社會保障體系,當前社會上一般可以采用大數據技術構建“數字人社”,從而實現運用大數據分析推進人社工作,例如:用數據分析挖掘進行服務決策、研究政策,用數據分析研判形勢,用數據研究發現問題,用數據反映工作進展,用數據分析進行基金監控,提高基金利用率,降低基金無謂浪費等。而對人社大數據的應用的前提實對大數據的識別,特別是對社保實體的識別格外重要。
目前常見的實體識別技術主要應用于醫療領域,在社保領域中并沒有合適的實體識別方式,例如在醫療領域中,有基于詞表的醫學實體識別和基于條件隨機場(Conditional Random Fields,簡稱CRF)的醫學實體識別,然而基于詞表的醫學實體識別僅僅依靠術語庫匹配,缺少上下文語境識別,且術語庫匹配存在較大局限性。而基于CRF的醫學實體識別技術,缺少大數據語料庫和語言規則的應用,語料均為人工標注后的語料,而沒有利用半監督學習等方法,增加對數量更龐大的未標注數據的使用,使得模型不夠完善,缺少基于語言學與醫療信息的規則,僅僅依靠模型,對數據的針對性不夠強。可見,當前的實體識別方案并不能準確進行社保類實體識別。
發明內容
本發明的實施例提供一種面向多數據源的社保類實體識別方法及裝置,以解決當前的實體識別方案并不能準確進行社保類實體識別的問題。
為達到上述目的,本發明采用如下技術方案:
一種面向多數據源的社保類實體識別方法,包括:
獲取原始數據中的待處理語句;
將所述待處理語句進行單字切分,確定待處理語句中的每個文字;
根據預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;
根據待處理語句的實體標記序列,確定待處理語句的第一組候選實體;
根據預先設置的社保類術語切分策略,對所述待處理語句進行術語切分,確定第二組候選實體;
根據第一組候選實體和第二組候選實體中各候選實體的末尾字符,以及預先設置的社保類實體篩選規則,對各候選實體進行篩選,分別形成第一組社保類候選實體和第二組社保類候選實體;
若第一組社保類候選實體和第二組社保類候選實體不相同,根據預先設置的判斷策略選擇第一組社保類候選實體或第二組社保類候選實體作為所述待處理語句中的社保類實體。
具體的,所述根據預先設置的判斷策略選擇第一組社保類候選實體或第二組社保類候選實體作為所述待處理語句中的社保類實體,包括:
確定待處理語句在進行術語切分時,是否通過預先設置的切分規則進行切分;
若待處理語句在進行術語切分時,通過預先設置的切分規則進行切分,則選擇所述第二組社保類候選實體中的候選實體作為所述待處理語句中的社保類實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江特士信息技術有限公司;哈爾濱工業大學,未經黑龍江特士信息技術有限公司;哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101834.5/2.html,轉載請聲明來源鉆瓜專利網。





