[發(fā)明專利]一種基于人的信息聚合方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410857598.6 | 申請(qǐng)日: | 2015-08-04 |
| 公開(kāi)(公告)號(hào): | CN104504138A | 公開(kāi)(公告)日: | 2015-07-29 |
| 發(fā)明(設(shè)計(jì))人: | 石忠民;徐亞波;莫敏 | 申請(qǐng)(專利權(quán))人: | 廣州索答信息科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 廣州市越秀區(qū)哲力專利商標(biāo)事務(wù)所(普通合伙) 44288 | 代理人: | 湯喜友 |
| 地址: | 510000 廣東省廣州市廣州高新技術(shù)產(chǎn)業(yè)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 信息 聚合 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息聚合技術(shù)領(lǐng)域,具體涉及一種基于人的信息聚合方法和裝置。
背景技術(shù)
我國(guó)人力資源新興市場(chǎng)規(guī)模已達(dá)百億元,以智聯(lián)招聘和前程無(wú)憂等為首的互聯(lián)網(wǎng)企業(yè)降低了用人單位招聘工作的時(shí)間和經(jīng)濟(jì)成本,提供了極大的便利,已成為人力資源服務(wù)的主體。然而,在互聯(lián)網(wǎng)海量的應(yīng)聘者信息中,用人單位找到合適的人才依然是大海撈針。核心的問(wèn)題是:招聘網(wǎng)站中的人才信息普遍存在著主觀、片面、不完整、不準(zhǔn)確的弊端,并且嚴(yán)重缺乏高端人才信息。傳統(tǒng)的搜索引擎通常都基于靜態(tài)的網(wǎng)頁(yè)信息,并以頁(yè)面為中心來(lái)構(gòu)建索引和提供搜索服務(wù)。
基于現(xiàn)有的人才信息所存在的問(wèn)題,需要建立以人為中心,實(shí)現(xiàn)關(guān)于人才的全面信息描述的語(yǔ)義資料庫(kù),并且其信息描述要準(zhǔn)確。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于人的信息聚合方法和裝置,通過(guò)對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行聚合,以形成針對(duì)個(gè)人的全面信息描述。
為解決上述問(wèn)題,本發(fā)明所采用的技術(shù)方案如下:
方案一:
一種基于人的信息聚合方法,包括以下步驟:
步驟A:利用數(shù)據(jù)模板中定義的匹配規(guī)則對(duì)相應(yīng)的網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行匹配,獲取個(gè)人屬性數(shù)據(jù),個(gè)人屬性數(shù)據(jù)包括姓名和與姓名對(duì)應(yīng)的屬性數(shù)據(jù);
步驟B:針對(duì)兩條姓名不同的個(gè)人屬性數(shù)據(jù)進(jìn)行相似度匹配,判斷相似度是否大于預(yù)設(shè)閾值,若是,則將該兩條個(gè)人屬性數(shù)據(jù)進(jìn)行融合;若否,則不融合該兩條個(gè)人屬性數(shù)據(jù);
步驟C:針對(duì)兩條姓名相同的個(gè)人屬性數(shù)據(jù)進(jìn)行相似度匹配,判斷相似度是否大于預(yù)設(shè)閾值,若是,則將該兩條個(gè)人屬性數(shù)據(jù)進(jìn)行融合;若否,則不融合該兩條個(gè)人屬性數(shù)據(jù)。
進(jìn)一步地,在步驟B和步驟C中,預(yù)設(shè)閾值通過(guò)以下方法確定:選取一批來(lái)自不同網(wǎng)站中的不同姓名但實(shí)質(zhì)為同一個(gè)人的個(gè)人屬性數(shù)據(jù)作為樣本,分別計(jì)算該批個(gè)人屬性數(shù)據(jù)中的每個(gè)屬性的平均相似度,將每個(gè)平均相似度乘以其屬性對(duì)應(yīng)的權(quán)重值,再將每個(gè)乘以權(quán)重值后的平均相似度相加所得到的結(jié)果作為預(yù)設(shè)閾值。
進(jìn)一步地,屬性的平均相似度由以下方法獲得:樣本中屬于同一屬性的數(shù)據(jù)具有多個(gè),將屬于同一屬性的多個(gè)數(shù)據(jù)進(jìn)行每?jī)蓚€(gè)數(shù)據(jù)計(jì)算出一個(gè)相似度,進(jìn)而得到多個(gè)相似度,針對(duì)多個(gè)相似度求平均值則得到屬于該屬性的平均相似度。
方案二:
一種基于人的信息聚合裝置,包括以下模塊:
模塊A:用于利用數(shù)據(jù)模板中定義的匹配規(guī)則對(duì)相應(yīng)的網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行匹配,獲取個(gè)人屬性數(shù)據(jù),個(gè)人屬性數(shù)據(jù)包括姓名和與姓名對(duì)應(yīng)的屬性數(shù)據(jù);
模塊B:用于針對(duì)兩條姓名不同的個(gè)人屬性數(shù)據(jù)進(jìn)行相似度匹配,判斷相似度是否大于預(yù)設(shè)閾值,若是,則將該兩條個(gè)人屬性數(shù)據(jù)進(jìn)行融合;若否,則不融合該兩條個(gè)人屬性數(shù)據(jù);
模塊C:用于針對(duì)兩條姓名相同的個(gè)人屬性數(shù)據(jù)進(jìn)行相似度匹配,判斷相似度是否大于預(yù)設(shè)閾值,若是,則將該兩條個(gè)人屬性數(shù)據(jù)進(jìn)行融合;若否,則不融合該兩條個(gè)人屬性數(shù)據(jù)。
進(jìn)一步地,在模塊B和模塊C中,預(yù)設(shè)閾值通過(guò)以下方法確定:選取一批來(lái)自不同網(wǎng)站中的不同姓名但實(shí)質(zhì)為同一個(gè)人的個(gè)人屬性數(shù)據(jù)作為樣本,分別計(jì)算該批個(gè)人屬性數(shù)據(jù)中的每個(gè)屬性的平均相似度,將每個(gè)平均相似度乘以其屬性對(duì)應(yīng)的權(quán)重值,再將每個(gè)乘以權(quán)重值后的平均相似度相加所得到的結(jié)果作為預(yù)設(shè)閾值。
進(jìn)一步地,屬性的平均相似度由以下方法獲得:樣本中屬于同一屬性的數(shù)據(jù)具有多個(gè),將屬于同一屬性的多個(gè)數(shù)據(jù)進(jìn)行每?jī)蓚€(gè)數(shù)據(jù)計(jì)算出一個(gè)相似度,進(jìn)而得到多個(gè)相似度,針對(duì)多個(gè)相似度求平均值則得到屬于該屬性的平均相似度。
相比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:通過(guò)從不同數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,可以實(shí)現(xiàn)以人為單位,對(duì)其相關(guān)的屬性信息進(jìn)行深度的挖掘,包括人的基本信息、興趣、社會(huì)關(guān)系、經(jīng)歷等屬性信息,形成針對(duì)個(gè)人的全面信息描述,為后面構(gòu)建豐富的關(guān)于人的語(yǔ)義模型提供數(shù)據(jù)基礎(chǔ)。
附圖說(shuō)明
圖1為本發(fā)明的基于人的信息聚合方法的流程圖。
具體實(shí)施方式
下面,結(jié)合附圖以及具體實(shí)施方式,對(duì)本發(fā)明做進(jìn)一步描述:
如圖1所示,一種基于人的信息聚合方法,包括以下步驟:
步驟A:利用數(shù)據(jù)模板中定義的匹配規(guī)則對(duì)相應(yīng)的網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行匹配,獲取個(gè)人屬性數(shù)據(jù),個(gè)人屬性數(shù)據(jù)包括姓名和與姓名對(duì)應(yīng)的屬性數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州索答信息科技有限公司,未經(jīng)廣州索答信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410857598.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





