[發(fā)明專利]一種面向多數(shù)據(jù)源的社保類實(shí)體識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710101834.5 | 申請(qǐng)日: | 2017-02-24 |
| 公開(公告)號(hào): | CN106933802B | 公開(公告)日: | 2020-02-21 |
| 發(fā)明(設(shè)計(jì))人: | 李雪莉;關(guān)毅;黃玉麗;徐國春 | 申請(qǐng)(專利權(quán))人: | 黑龍江特士信息技術(shù)有限公司;哈爾濱工業(yè)大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06Q40/08;G06Q50/22 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 王濤;賈磊 |
| 地址: | 150000 黑龍江省哈爾濱經(jīng)開區(qū)哈*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 多數(shù) 社保 實(shí)體 識(shí)別 方法 裝置 | ||
1.一種面向多數(shù)據(jù)源的社保類實(shí)體識(shí)別方法,其特征在于,包括:
獲取原始數(shù)據(jù)中的待處理語句;
將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;
根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;
根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;
根據(jù)預(yù)先設(shè)置的社保類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;
根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,以及預(yù)先設(shè)置的社保類實(shí)體篩選規(guī)則,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組社保類候選實(shí)體和第二組社保類候選實(shí)體;
若第一組社保類候選實(shí)體和第二組社保類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略選擇第一組社保類候選實(shí)體或第二組社保類候選實(shí)體作為所述待處理語句中的社保類實(shí)體。
2.根據(jù)權(quán)利要求1所述的面向多數(shù)據(jù)源的社保類實(shí)體識(shí)別方法,其特征在于,所述根據(jù)預(yù)先設(shè)置的判斷策略選擇第一組社保類候選實(shí)體或第二組社保類候選實(shí)體作為所述待處理語句中的社保類實(shí)體,包括:
確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;
若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組社保類候選實(shí)體中的候選實(shí)體作為所述待處理語句中的社保類實(shí)體;
若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組社保類候選實(shí)體中的候選實(shí)體作為所述待處理語句中的社保類實(shí)體;
或者,確定來源于相同待處理語句的原始字符串的第一組社保類候選實(shí)體和第二組社保類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為所述待處理語句中的社保類實(shí)體;
在所述第一組社保類候選實(shí)體和第二組社保類候選實(shí)體中相對(duì)應(yīng)的實(shí)體的實(shí)體類型不一致時(shí),選擇第二組候選實(shí)體中的實(shí)體的實(shí)體類型作為所述相對(duì)應(yīng)的實(shí)體的實(shí)體類型。
3.根據(jù)權(quán)利要求2所述的面向多數(shù)據(jù)源的社保類實(shí)體識(shí)別方法,其特征在于,所述原始數(shù)據(jù)包括社保工作中的就業(yè)信息數(shù)據(jù)、醫(yī)保信息數(shù)據(jù)、失業(yè)信息數(shù)據(jù)、生育信息數(shù)據(jù)、工傷信息數(shù)據(jù)、政策文章數(shù)據(jù)、社保問答信息數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的面向多數(shù)據(jù)源的社保類實(shí)體識(shí)別方法,其特征在于,根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列,包括:
從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的CRF統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述CRF統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值;
根據(jù)每個(gè)字在各語句中的CRF統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:
根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;
將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。
5.根據(jù)權(quán)利要求4所述的面向多數(shù)據(jù)源的社保類實(shí)體識(shí)別方法,其特征在于,根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體,包括:
在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于黑龍江特士信息技術(shù)有限公司;哈爾濱工業(yè)大學(xué),未經(jīng)黑龍江特士信息技術(shù)有限公司;哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101834.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 社保就診信息管理方法
- 基于安卓系統(tǒng)的銀聯(lián)社??ㄖЦ斗椒?/a>
- 社??ū蔚谋YM(fèi)續(xù)繳方法、設(shè)備及存儲(chǔ)介質(zhì)
- 社保費(fèi)托收數(shù)據(jù)的傳輸方法、裝置及系統(tǒng)
- 一種用于社保的數(shù)據(jù)處理系統(tǒng)
- 一種基于區(qū)塊鏈的數(shù)字社??ㄏ到y(tǒng)
- 基于區(qū)塊鏈的社??ù孀C方法及其裝置
- 醫(yī)院信息系統(tǒng)的社保對(duì)接方法、裝置、系統(tǒng)及電子設(shè)備
- 一種電子社??ü芾矸椒跋到y(tǒng)
- 社保繳費(fèi)證明開立方法及裝置
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





