[發明專利]一種基于文本挖掘的課程設置分析方法在審
| 申請號: | 202110287512.0 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN112861530A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 張建桃;曾莉;韋婷婷;江濤;張大斌;凌立文;毛小娟 | 申請(專利權)人: | 華南農業大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06K9/62;G06F16/215;G06F16/2458;G06F16/26;G06F16/951;G06Q50/20 |
| 代理公司: | 廣州赤信知識產權代理事務所(普通合伙) 44552 | 代理人: | 龔素琴 |
| 地址: | 510630 廣東省廣州市天河*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 挖掘 課程 設置 分析 方法 | ||
1.一種基于文本挖掘的課程設置分析方法,其特征在于,包括以下步驟:
步驟1:數據采集,根據確定的數據搜索關鍵詞,從選定的招聘網站中采集研究專業的招聘要求數據和非研究專業的招聘要求數據;
步驟2:數據預處理,對采集的招聘要求數據進行預處理操作;
步驟3:知識點提取,提取招聘要求數據中的知識點,并構建知識詞庫;
步驟4:課程歸類,對知識詞庫中的知識點進行聚類分析,并將分類后的知識點歸類到課程,獲得就業市場對該專業的課程需求。
2.根據權利要求1所述的一種基于文本挖掘的課程設置分析方法,其特征在于:所述步驟1的數據采集包括以下子步驟:
步驟1.1:制定采集規則,選定數據采集的招聘網站,確定研究專業的搜索關鍵詞及非研究專業的搜索關鍵詞、數據采集的網頁頁數、數據發布的時間段等;
步驟1.2:網絡爬蟲,根據制定的數據采集規則,通過網絡爬蟲技術爬取招聘網站中的招聘數據;
步驟1.3:采用正則表達式從獲取的招聘數據中提取招聘要求字段的數據。
3.根據權利要求1所述的一種基于文本挖掘的課程設置分析方法,其特征在于:所述步驟2的數據預處理包括以下子步驟:
步驟2.1:數據清洗,對采集的數據進行數據清洗,清除數據中的空值、重復值、異常范值、HTML標簽等數據噪聲;
步驟2.1:構建自定義分詞詞典和停用詞庫,分詞詞典中包含研究專業領域的知識點詞語,停用詞庫中包含無研究意義的詞語;
步驟2.1:分詞和去停用詞,調用構建的自定義分詞詞典和停用詞庫,并結合現有的分詞詞典和停用詞庫對數據進行分詞和去停用詞處理。
4.根據權利要求1所述的一種基于文本挖掘的課程設置分析方法,其特征在于:所述步驟3的知識點提取包括以下子步驟:
步驟3.1:計算ASI值,將研究專業的就業要求數據作為目標集,非研究專業的就業要求數據作為輔助集,計算目標集中每個詞語ωi的輔助集重要性ASI值,計算公式如下:
式中:df(ωi,TS)為目標集中包含ωi的文本數;df(ωi,AS)為輔助集中包含ωi的文本數;|TS|為目標集中文本的總數;|AS|為輔助集中文本的總數;
步驟3.2:提取知識點,根據ASI值的大小來提取知識點,ASI值越大,該詞為知識點的概率越大。
步驟3.3:構建知識詞庫,把提取的知識點放入知識詞庫中。
5.根據權利要求1所述的一種基于文本挖掘的課程設置分析方法,其特征在于:所述步驟5的課程歸類包括以下子步驟:
步驟4.1:明確各門課程的知識點,對研究專業的課程門類及每門課程涵蓋的知識點進行明確;
步驟4.2:知識詞庫K-means聚類,使用K-means聚類算法對知識詞庫中的知識點進行聚類分析,K-means算法以樣本與質心的平方誤差和(SSE)的最小值作為目標函數,計算公式如下:
式中:K為聚類簇數,K的值通過肘部法則(Elbow Method)確定;Ci為第i個簇;ci為Ci的質心;x為Ci中的知識點樣本;Ni為Ci中的樣本數;
步驟4.3:知識點課程歸類,參照已明確的各門課程知識點,將實現K-means聚類后的每一類知識點歸類到大致所屬的課程,進而獲得就業市場對該專業的課程需求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南農業大學,未經華南農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110287512.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種熱自適應性模塊、電池模組及電池包
- 下一篇:一種EGR閥在線檢測平臺





