[發明專利]基于網頁信息的簡歷識別方法和裝置在審
| 申請號: | 202011237984.7 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112966068A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 徐震宇;馬軍峰;張雅婷;蔡如昕 | 申請(專利權)人: | 襲明科技(廣東)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/126;G06F40/211;G06F40/216;G06F40/242;G06F40/295;G06N3/04;G06N3/08;G06Q10/10;G06K9/62 |
| 代理公司: | 廣州市專注魚專利代理有限公司 44456 | 代理人: | 凌霄漢 |
| 地址: | 523808 廣東省東莞*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網頁 信息 簡歷 識別 方法 裝置 | ||
本發明涉及一種基于網頁信息的簡歷識別方法、裝置、計算機設備和存儲介質,上述基于網頁信息的簡歷識別方法通過從網頁界面提取網頁文本信息,識別各個網頁文本信息的命名體,得到各個網頁文本信息分別對應的一組命名體,采用jieba分詞器根據各組命名體對各個網頁文本信息進行中文分詞,得到各個網頁文本信息分別對應的一組單元詞,根據各組單元詞確定各個網頁文本信息的一組特征值,將各組特征值輸入預先訓練的文本分類模型,將各個網頁文本信息劃分為簡歷數據和非簡歷數據,以實現對網頁界面中簡歷數據的準確識別,可以提高識別準確率。
技術領域
本申請涉及數據處理技術領域,特別是涉及一種基于網頁信息的簡歷識別方法、裝置、計算機設備和存儲介質。
背景技術
在相關招聘網頁平臺,簡歷往往以網頁的形式存在,從大量網頁中抽取簡歷信息是獲得簡歷信息的重要途徑。傳統的方法大部分都是將大量的網頁信息進行關鍵詞的字符串的匹配,對很多人名的識別效果也不佳,導致分類識別效果低下。而且由于是對簡歷網頁數據的識別分類,所以在命名體識別上尤為關鍵。
命名實體識別(Named Entity Recognition,NER)的主要任務是識別出文本中的人名、地名等專有名稱和有意義的時間、日期等數量短語并加以歸類。命名實體識別技術是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。從語言分析的全過程來看,命名實體識別屬于詞法分析中未登錄詞識別的范疇。命名實體是未登錄詞中數量最多、識別難度最大、對分詞效果影響最大的問題。根據、數據評測結果,未登錄詞造成的分詞精度失落至少比歧義大5倍以上,可見命名實體地位的重要性。
國外對于英文命名實體識別的研究開始比較早,英文命名實體的識別中只需考慮詞本身的特征而不涉及分詞問題,因此實現難度相對較低。根據相關評測結果,測試的準確率、召回率、F1值目前大多可以達到90%左右。中文內在的特殊性決定了在文本處理時首先必須進行詞法分析,中文命名實體識別的難度要比英文的難度大。
命名實體是命名實體識別的研究主體,一般包括3大類(實體類、時間類和數字類)和7小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。實際研究中,命名實體的確切含義需要根據具體應用來確定,比如,可能需要把產品名稱、旅游景點名稱等作為命名實體。在面向生物命名實體信息提取時,還包括蛋白質、基因、核糖核酸、脫氧核糖核酸、細胞等特殊生物實體。由于數量、時間、日期、貨幣等實體識別通常可以采用模式匹配的方式獲得較好的識別效果,相比之下人名、地名、機構名較復雜,因此近年來的研究主要以這幾種實體為主。同時生物領域的實體識別也比較活躍。這些實體中以機構名和生物實體識別難度最大,普遍存在嵌套和縮寫的識別問題。從研究的發展趨勢上看,由原來的單獨針對人名、地名等進行識別發展到開始采用統一的方法同時進行各類中文命名實體的識別,而且識別效果也得到了提高。這種方法雖然考慮了人名、地名和機構名的共同特點,在一定程度解決多種命名實體間的歧義問題。但是,它不能充分分析不同命名實體間的差異性,制約了整體的識別性能。主體所屬的領域,包括新聞、生物醫學等領域都有相關研究表明命名實體識別呈現弱領域相關性。不同領域具有類似特點,但是從某個領域移植到一個新領域,通常會遇到嚴重的性能下降問題,主要原因在于命名實體的標記定義不同、不同領域有著不同的形態語法特點。評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;;實體的類型是否標注正確。主要錯誤類型包括文本正確,類型可能錯誤;反之,文本邊界錯誤,而其包含的主要實體詞和詞類標記可能正確。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于襲明科技(廣東)有限公司,未經襲明科技(廣東)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011237984.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





