[發明專利]一種學生瀏覽網頁分類方法有效
| 申請號: | 201710792423.5 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107506472B | 公開(公告)日: | 2020-09-08 |
| 發明(設計)人: | 肖紹章;朱全銀;李翔;錢凱;于柿民;潘舒新;瞿學新;唐海波;邵武杰;高陽;江麗萍 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F16/954;G06F16/955;G06F16/906;G06N7/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223005 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 學生 瀏覽 網頁 分類 方法 | ||
1.一種學生瀏覽網頁分類方法,其特征在于,包括如下步驟:
步驟一:從導航類網站爬取URL、URL描述內容、URL一級分類和URL二級分類,并保存到URL集合中,構建語料庫,將語料庫中URL描述內容文本表示成uni-gram和bi-gram的形式,以TF-IDF作為文本特征的權重,用樸素貝葉斯分類算法得到分類器;
步驟二:通過爬蟲爬取URL網頁內容,由步驟一中得出的分類器確定URL所屬類別;
步驟三:定義學生瀏覽網頁地址集,對學生瀏覽的URL進行切分處理,根據步驟二中得出的URL所屬類別判斷如果分類器返回的類別概率大于所設分類概率閾值CP且分類器返回的類別和使用支持向量機分類得到的類別相同,將該URL和URL類別存入到URL集合中;若分類器無法確定類別,則和URL集合進行字符匹配來確定URL類別,最后得到所有學生網頁瀏覽分類集;
所述步驟一中構建語料庫和分類器的具體步驟如下:
步驟1.1:定義文本停用詞集SWORD={sword1,sword2,…,swordnum},其中,swordswi為第swi個停用詞,nun為停用詞總個數;定義樸素貝葉斯平滑參數Alpha,其中Alpha∈(0,1);定義語料庫四個分類,分別為娛樂休閑、電腦網絡、生活服務和文化教育,G1、G2、G3和G4分別為娛樂休閑、電腦網絡、生活服務和文化教育類URL相關信息內容集,G1={URLInfo1,1,URLInfo1,2,...URLInfo1,a},G2={URLInfo2,1,URLinfo2,2,..,URLInfo2,b},G3={URLInfo3,1,URLInfo3,2,...URLInfo3,c},G4={URLInfo4,1,URLInfo4,2,..,URLInfo4,d},其中,a、b、c和d分別表示G1、G2、G3和G4類別中的URL個數,從導航目錄網站爬取的URL信息為URLInfox,y={FirCatex,y,SecCatex,y,URLx,y,URLContentx,y},FirCatex,y,SecCatex,y,URLx,y,URLContentx,y分別表示第Gx類別下第y個URL一級類別、URL二級類別、URL和URL描述內容,x∈[1,4],x為整數,y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y為整數;
步驟1.2:將SecCatex,y為“電視”所對應的一級分類FirCatex,y修改為“娛樂休閑”,將FirCatex,y為“安逸網站大全”的將FirCatex,y修改為“電腦網絡”,將SecCatex,y為“成績查詢”和“在線翻譯”所對應的一級分類FirCatex,y修改為“文化教育”;
步驟1.3:使用jieba分詞對G1,G2,G3,G4中所有URL描述內容進行分詞處理,去除停用詞SWORD,得到文本分類語料庫StuCate={Cate1,Cate2,Cate3,Cate4},其中,娛樂休閑類文本集Cate1={txt1,1,txt1,2,...,txt1,s},電腦網絡類文本集Cate2={txt2,1,txt2,2,...,txt2,t},生活服務類文本集Cate3={txt3,1,txt3,2,...,txt3,u},文化教育類文本集Cate4={txt4,1,txt4,2,...,txt4,u},文本單詞集txtm,n={wordm,n,1,wordm,n,2,...,wordm,n,z},所述的txtm,n為Catem的第n篇文本中的單詞內容,所述的z為第Catem類別下第n個文本的單詞個數,所述的wordm,n,e為Catem的第n篇文本內容中第e個單詞,所述的s、t、u和v分別為娛樂休閑、電腦網絡、生活服務和文化教育類文本個數,且m∈[1,4];
步驟1.4:隨機取StuCate中每個類別集合的80%文本作為訓練集,把文本表示成uni-gram和bi-gram的形式,結合TF-IDF作為特征的權重;
步驟1.5:使用平滑參數為Alpha的樸素貝葉斯分類算法得到分類器,取StuCate中每個類別集合剩余的20%文本作為測試集,測試分類器準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710792423.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:快速取證方法及系統
- 下一篇:一種基于云計算的大數據檢索方法





