[發(fā)明專利]一種類雙塔模型的多特征交互網(wǎng)絡(luò)招聘文本分類方法有效
| 申請?zhí)枺?/td> | 202110600441.5 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113342933B | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計)人: | 高尚兵;張駿強;李文婷;相林;陳浩霖;于永濤;周君;朱全銀;張正偉;汪長春;蔡創(chuàng)新;郝明陽;胡序洋;李少凡 | 申請(專利權(quán))人: | 淮陰工學院 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京經(jīng)緯專利商標代理有限公司 32200 | 代理人: | 田凌濤 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 種類 模型 特征 交互 網(wǎng)絡(luò) 招聘 文本 分類 方法 | ||
1.一種類雙塔模型的多特征交互網(wǎng)絡(luò)招聘文本分類方法,其特征在于:執(zhí)行如下步驟I至步驟VI,獲得招聘文本分類概率模型,以及執(zhí)行如下步驟A至步驟B,實現(xiàn)對目標招聘文本的分類;
步驟I. 收集各條招聘樣本文本,并確定各招聘樣本文本分別對應預設(shè)各招聘分類類別中的真實分類類別,并分別針對各條招聘樣本文本,按預設(shè)各稠密屬性與預設(shè)各稀疏屬性,將招聘樣本文本劃分為稀疏特征文本和稠密特征文本,進而獲得各條招聘樣本文本分別所對應的稀疏特征文本和稠密特征文本,然后進入步驟II;
上述步驟I包括如下步驟I1至步驟I3;
步驟I1. 收集各個招聘樣本文本,并確定各文本樣本對象分別對應預設(shè)各招聘分類類別中的真實分類類別,然后進入步驟I2;
步驟I2. 刪除各招聘樣本文本中各預設(shè)無意義類型的詞,更新各個招聘樣本文本,然后進入步驟I3;
步驟I3. 分別針對各條招聘樣本文本,按預設(shè)各稠密屬性與預設(shè)各稀疏屬性,將招聘樣本文本劃分為稀疏特征文本和稠密特征文本,進而獲得各條招聘樣本文本分別所對應的稀疏特征文本和稠密特征文本,然后進入步驟II;
步驟II. 分別針對各條招聘樣本文本,獲得其稀疏特征文本所對應的字向量序列,以及獲得其稠密特征文本所對應的one-hot向量序列,進而獲得各條招聘樣本文本分別所對應的字向量序列與one-hot向量序列,然后進入步驟III;
其中,上述步驟II中,分別針對各條招聘樣本文本,按如下步驟II-I-I1至步驟II-I-I2,獲得其稀疏特征文本所對應的字向量序列;
步驟II-I-I1.針對招聘樣本文本的稀疏特征文本,應用預訓練語言模型,獲得該稀疏特征文本中各個字分別所對應的字向量,然后進入步驟II-I-I2;
步驟II-I-I2.由該稀疏特征文本中各個字分別所對應的字向量,組成該稀疏特征文本所對應的字向量序列;
或者分別針對各條招聘樣本文本,按如下步驟II-I-II1至步驟II-I-II3,獲得其稀疏特征文本所對應的字向量序列;
步驟II-I-II1. 針對招聘樣本文本的稀疏特征文本執(zhí)行分詞處理,并按預設(shè)連詞庫刪除其中的連詞,獲得該稀疏特征文本中的各個稀疏特征分詞,然后進入步驟II-I-II2;
步驟II-I-II2. 分別針對該稀疏特征文本中的各個稀疏特征分詞,應用word2vec算法,獲得稀疏特征分詞所對應的字向量,然后進入步驟II-I-II3;
步驟II-I-II3. 由該稀疏特征文本中各稀疏特征分詞分別所對應的字向量,組成該稀疏特征文本所對應的字向量序列;
并且上步驟II中,分別針對各條招聘樣本文本,按如下步驟II-II-1至步驟II-II-3,獲得其稠密特征文本所對應的one-hot向量序列;
步驟II-II-1. 針對招聘樣本文本的稠密特征文本執(zhí)行分詞處理,并按預設(shè)詞表刪除其中的相應字符,獲得該稠密特征文本中的各個稠密特征分詞,然后進入步驟II-II-2;
步驟II-II-2. 選擇該稠密特征文本中的各個非重復稠密特征分詞,并按各非重復稠密特征分詞分別在該稠密特征文本中第一次出現(xiàn)的位置,針對該各個非重復稠密特征分詞進行排序,然后進入步驟II-II-3;
步驟II-II-3. 獲得各個非重復稠密特征分詞分別所對應的向量,并結(jié)合各非重復稠密特征分詞的排序,構(gòu)成該稠密特征文本所對應的one-hot向量序列;
步驟III. 基于對應字向量序列的預設(shè)第一特征提取模型、對應one-hot向量序列的預設(shè)第二特征提取模型、兩特征提取模型分別對應的特征自交互模型、以及兩特征提取模型之間的全局特征交互模型,以預設(shè)第一特征提取模型輸入端、預設(shè)第二特征提取模型輸入端為輸入,預設(shè)第一特征提取模型輸出端、預設(shè)第二特征提取模型輸出端、以及各特征自交互模型輸出與全局特征交互模型輸出的融合輸出端進一步對接特征融合層的輸入端,特征融合層的輸出端依次串聯(lián)注意力層、softmax層,構(gòu)建文本分類初始概率模型,然后進入步驟VI;
步驟VI. 以各招聘樣本文本分別所對應的字向量序列與one-hot向量序列為輸入,各招聘樣本文本分別對應預設(shè)各招聘分類類別的概率為輸出,結(jié)合各招聘樣本文本分別對應預設(shè)各招聘分類類別中的真實分類類別,針對文本分類初始概率模型進行訓練,獲得招聘文本分類概率模型;
步驟A. 按步驟I至步驟II,獲得目標招聘文本所對應的字向量序列與one-hot向量序列;
步驟B. 應用所述招聘文本分類概率模型,針對目標招聘文本所對應的字向量序列與one-hot向量序列進行處理,獲得目標文本對象分別對應預設(shè)各招聘分類類別的概率,并選擇其中最大概率所對應的分類類別,作為目標文本對象所對應的分類類別,實現(xiàn)對目標招聘文本的分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淮陰工學院,未經(jīng)淮陰工學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110600441.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





