[發明專利]一種基于K-聚類算法的學科選擇推薦方法在審
| 申請號: | 202110247202.6 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN113051469A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 魯仁全;蔡展銳;任鴻儒;王志宏;張子榮 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 算法 學科 選擇 推薦 方法 | ||
1.一種基于K-聚類算法的學科選擇推薦方法,其特征在于,所述方法包括以下步驟:
S1:獲取調查對象的個人信息;
S2:將所述個人信息轉化為樣本數據yi,組成樣本數據集Y;
S3:對樣本數據yi進行預處理,獲得預處理樣本數據xi;
S4:利用K-means++算法對預處理樣本數據進行分析,選取出k個初始聚類中心;
S5:計算每個預處理樣本數據到每個初始聚類中心的歐式距離,按照最小距離原則,將每個預處理樣本數據分配到距離最近的初始聚類中心;
S6:分配完成后,計算每個初始聚類中心內分配的預處理樣本數據到該初始聚類中心的歐氏距離的均值點,將均值點作為新聚類中心;
S7:確認每個新聚類中心與初始聚類中心的位置是否相同;若位置相同,執行S8;若位置不相同,將新聚類中心更新為初始聚類中心,重復步驟S5-S6,直到位置不再變化;
S8:將位置不再變化的新聚類中心作為最終聚類中心,獲得最終聚類中心所處的簇;所述簇根據學科設置;
S9:計算樣本數據與每個最終聚類中心的歐氏距離,將樣本數據分配到歐氏距離最近的最終聚類中心,輸出該最終聚類中心所處的簇對應的推薦學科。
2.根據權利要求1所述的基于K-聚類算法的學科選擇推薦方法,其特征在于,所述S1中,調查對象為不同學校不同專業的畢業生和在校生;所述個人信息包括調查對象的性別、年齡、學歷、專業、學習習慣、個人性格和選擇動機;
調查對象的性別分為男和女;調查對象的學歷分為本科和分本科;調查對象的專業分為理科類、工科類和文科類;調查對象的學習習慣分為偏向鉆研和偏向記憶記;調查對象的調查對象的分為偏向理性和偏向感性;調查對象的選擇動機分為偏向就業、偏向薪資和偏向前景。
3.根據權利要求2所述的基于K-聚類算法的學科選擇推薦方法,其特征在于,所述S2中,將個人信息轉化為樣本數據的具體方法為:調查對象的性別為女記為0,調查對象的性別為男記為1;調查對象的學歷為本科記為3,調查對象的學歷為非本科記為4;調查對象的專業為理科類記為5,工科類記為6,文科類記為7;調查對象的學習習慣偏向鉆研記為8,偏向記憶記為9;調查對象的個人性格偏向理性記為10,偏向感性記為11;調查對象的選擇動機偏向就業記為12,偏向薪資記為13,偏向前景記為14。
4.根據權利要求3所述的基于K-聚類算法的學科選擇推薦方法,其特征在于,所述S3中,對樣本數據進行預處理具體包括:去除重復的樣本數據、去除無關的樣本數據、去除錯誤的樣本數據、去除或補全缺失的樣本數據、樣本數據離差標準化。
5.根據權利要求4所述的基于K-聚類算法的學科選擇推薦方法,其特征在于,預處理中,樣本數據離差標準化的具體方法為:將樣本數據集Y中的樣本數據yi變換到區間[a,b]內,則:
其中,xi為預處理樣本數據,yi為樣本數據,Y為樣本數據集,a為變換區間的最小值,b為變換區間的最大值。
6.根據權利要求5所述的基于K-聚類算法的學科選擇推薦方法,其特征在于,所述S4中,選取出k個初始聚類中心的具體方法為:
S4.1:隨機選擇一個預處理樣本數據作為第一初始聚類中心;
S4.2:計算每個預處理樣本數據xi到第一初始聚類中心的距離D(xi);
S4.3:根據D(xi)計算每個預處理樣本數據xi的選擇概率P(xi);
S4.4:根據選擇概率P(xi)計算每個預處理樣本數據xi的累積概率Q(xi),并生成一個隨機數r,選出第二初始聚類中心;
S4.5:重復步驟S4.4,直到選取出k個初始聚類中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110247202.6/1.html,轉載請聲明來源鉆瓜專利網。





