[發明專利]一種基于聚類的考試系統試題庫優化方法無效
| 申請號: | 201210066995.2 | 申請日: | 2012-03-14 |
| 公開(公告)號: | CN102629272A | 公開(公告)日: | 2012-08-08 |
| 發明(設計)人: | 姚文斌;雷鳴濤;葉鵬迪;韓司;王樅 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 考試 系統 試題庫 優化 方法 | ||
(一)技術領域
本發明涉及的是一種基于聚類的考試系統試題庫優化方法。
(二)背景技術
當前網上考試系統的實現中試題庫容量的數量級還處在千級、萬級,而云教育系統的出現會使數量級上升至十萬、百萬甚至千萬級。對于試題庫的優化大多數是基于數據庫自身的優化功能,此種方法對于小數量級的數據具有比較明顯的功能,但對于大數量級的數據處理卻不具備快速準確的優點。
聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類與分類的不同在于,聚類所要求劃分的類是未知的。
本發明是將聚類的思想應用于考試系統試題庫優化。該方法能夠在未知試題庫是否無重復試題的情況下,根據試題內容與詞庫詞語的匹配程度分詞,并通過計算試題與選定中心點的相似度,將相似度最接近的試題聚為一簇,并在本簇內查找重復試題進行標記。基于聚類的考試系統試題庫優化方法,能夠綜合考慮試題庫中各試題的相似情況及試題語義,對語義相似或完全相同的試題進行標記,從而有效降低了試題庫的重復度;各簇內并行運行,從而大大提升了查重速度,提高了試題查重效率。
(三)發明內容
本發明的目的在于提供一種基于聚類思想的考試系統試題庫優化方法。該方法能夠在未知試題庫是否無重復試題的情況下,根據試題內容與詞庫詞語的匹配程度分詞,并通過計算試題與選定中心點的相似度,將相似度最接近的試題聚為一簇,并在本簇內查找重復試題進行標記。基于聚類的考試系統試題庫優化方法,能夠綜合考慮試題庫中各試題的相似情況及試題語義,對語義相似或完全相同的試題進行標記,從而有效降低了試題庫的重復度;各簇內并行運行,從而大大提升了查重速度,提高了試題查重效率。
本發明的目的是這樣實現的:
由1個試題庫、1個Web服務器、1個詞庫和n個用戶構成的考試系統,在未知試題庫是否存在重復試題時,將各試題分詞并與詞庫中各詞比對,得到中心點與各試題的分詞向量,由此計算試題與各中心點的相似度,并將試題加入相似度最高的中心點所在的簇內;在輸入新試題組時,依次對試題分詞,并與各簇內中心點計算相似度,并將試題加入相似度最高點中心點所在的簇內;在各簇內進行相似查找,將各簇內的相似試題進行標記;
詞庫U中各詞之間的權值關系表示為wij,其中,1≤i,j≤n,0≤wij≤1;
試題集合X={Z1,Z2,…,Zm},聚類半徑分別為R1,R2,…,Rs,其中,m為試題總數,s為總簇數;
各簇中心點分別表示為A1,A2,…,As,Al分詞后得到各詞表示為(Al1,Al2,…,Alh),其向量表示為其中,1≤l≤s,h為Al詞總數即維數;由A1,A2,…,As為中心點的簇分別表示為V1,V2,…,Vs;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210066995.2/2.html,轉載請聲明來源鉆瓜專利網。





