[發明專利]基于網頁信息的簡歷識別方法和裝置在審
| 申請號: | 202011237984.7 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112966068A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 徐震宇;馬軍峰;張雅婷;蔡如昕 | 申請(專利權)人: | 襲明科技(廣東)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/126;G06F40/211;G06F40/216;G06F40/242;G06F40/295;G06N3/04;G06N3/08;G06Q10/10;G06K9/62 |
| 代理公司: | 廣州市專注魚專利代理有限公司 44456 | 代理人: | 凌霄漢 |
| 地址: | 523808 廣東省東莞*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網頁 信息 簡歷 識別 方法 裝置 | ||
1.一種基于網頁信息的簡歷識別方法,其特征在于,包括:
從網頁界面提取網頁文本信息,識別各個網頁文本信息的命名體,得到各個網頁文本信息分別對應的一組命名體;
采用jieba分詞器根據各組命名體對各個網頁文本信息進行中文分詞,得到各個網頁文本信息分別對應的一組單元詞;
根據各組單元詞確定各個網頁文本信息的一組特征值;
將各組特征值輸入預先訓練的文本分類模型,將各個網頁文本信息劃分為簡歷數據和非簡歷數據;其中,所述文本分類模型為用于劃分簡歷數據和非簡歷數據的二分類模型。
2.根據權利要求1所述的方法,其特征在于,所述識別各個網頁文本信息的命名體包括:
采用bert提取詞向量提取各個網頁文本信息分別對應的一組詞;
采用BiLSTM網絡識別各組詞中各個詞之間的關系;
采用CRF概率模型根據各組詞中各個詞之間的關系確定各組詞的各個命名體。
3.根據權利要求1所述的方法,其特征在于,所述采用jieba分詞器根據各組命名體對各個網頁文本信息進行中文分詞,得到各個網頁文本信息分別對應的一組單元詞包括:
根據各組命名體生成各個trie樹,并將每個單元詞的出現次數轉換為詞頻率,得到各個trie樹中各個詞的詞頻率;
根據各個trie樹和各個trie樹中各個詞的詞頻率生成有向無環圖,讀取有向無環圖的各個詞,依次得到各個網頁文本信息分別對應的一組單元詞。
4.根據權利要求1所述的方法,其特征在于,所述根據各組單元詞確定各個網頁文本信息的一組特征值包括:
采用TF-IDF指數計算各組單元詞中各個詞的詞權重;
采用N-Gram模型根據各個詞的詞權重計算各個單元詞的特征值,得到一組特征值。
5.根據權利要求1所述的方法,其特征在于,所述文本分類模型的訓練過程包括:
構建訓練集和測試集;所述訓練集包括多個訓練樣本,所述訓練樣本為標注簡歷數據或者非簡歷數據的網頁界面;所述測試集包括多個測試樣本,所述測試樣本為標注簡歷數據或者非簡歷數據的網頁界面;
獲取訓練集中各個訓練樣本的特征值,得到各個訓練特征值,獲取測試集中各個測試樣本的特征值,得到各個測試特征值;
將各個訓練特征值和各個訓練特征值對應的標注信息輸入支持向量機進行訓練,得到初始分類模型;
將各個測試特征值輸入初始分類模型,在所述初始分類模型針對各個測試特征值分類得到的結果與各個測試特征值對應的標注信息一致時,根據初始分類模型當前的模型參數確定文本分類模型。
6.根據權利要求5所述的方法,其特征在于,所述獲取訓練集中各個訓練樣本的特征值,得到各個訓練特征值包括:
識別各個訓練樣本的命名體,得到各組訓練命名體;
采用jieba分詞器根據各組訓練命名體對各個訓練樣本進行中文分詞,得到各個訓練樣本分別對應的一組訓練詞;
根據各組訓練詞確定各個訓練樣本的特征值,得到各個訓練特征值。
7.根據權利要求5所述的方法,其特征在于,所述獲取測試集中各個測試樣本的特征值,得到各個測試特征值包括:
識別各個測試樣本的命名體,得到各組測試命名體;
采用jieba分詞器根據各組測試命名體對各個測試樣本進行中文分詞,得到各個測試樣本分別對應的一組測試詞;
根據各組測試詞確定各個測試樣本的特征值,得到各個測試特征值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于襲明科技(廣東)有限公司,未經襲明科技(廣東)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011237984.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





