[發明專利]一種試題的聚類方法、去重方法及系統在審
| 申請號: | 201910680927.7 | 申請日: | 2019-07-26 |
| 公開(公告)號: | CN110390019A | 公開(公告)日: | 2019-10-29 |
| 發明(設計)人: | 謝楚鵬;李可佳;郭晨陽 | 申請(專利權)人: | 江蘇曲速教育科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q50/20 |
| 代理公司: | 北京晟睿智杰知識產權代理事務所(特殊普通合伙) 11603 | 代理人: | 于淼 |
| 地址: | 214135 江蘇省無錫市新吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 試題 聚類 字符串 聚類中心 加權編輯距離 重要關鍵字 相似度 去重 關鍵字符 預設 加權 替換 轉化 | ||
本發明公開了一種試題的聚類方法、去重方法及系統。試題的聚類方法,包括:在所有參與聚類的試題中選取聚類中心試題;確定聚類中心試題的重要關鍵字符記為第一字符串,確定待聚類試題的重要關鍵字符記為第二字符串,重要關鍵字符為新增、替換或者修改后會改變試題含義或者類型的字符;計算第一字符串和第二字符串之間的加權編輯距離,加權編輯距離為第一字符串和第二字符串之間相互轉化的最少的加權操作次數;根據加權編輯距離計算待聚類試題與聚類中心試題之間的相似度;將相似度大于預設閾值的待聚類試題與聚類中心試題歸為同一試題類。本發明能夠實現高效地對大規模試題進行聚類。
技術領域
本發明涉及教育技術領域,更具體地,涉及一種試題的聚類方法、去重方法及系統。
背景技術
教育領域中不同的試題供應商,比如考試中心、教輔出版機構、培訓機構、和各個學校的出題老師都會提供大量的試題。隨著數字信息化在教育領域的應用,這些試題供應商也會采用在線平臺、或者終端軟件的方式向用戶提供試題,而這些大量的試題中不免有很多同類型的試題或者是相似度極高的試題。
因此,提供一種試題的聚類方法、去重方法及系統,實現高效地對大規模試題進行聚類,是本領域亟待解決的技術問題。
發明內容
有鑒于此,本發明提供了一種試題的聚類方法、去重方法及系統,解決了上述技術問題。
第一方面,本發明提供一種試題的聚類方法,包括:
在所有參與聚類的試題中選取聚類中心試題;
確定所述聚類中心試題的重要關鍵字符記為第一字符串,確定待聚類試題的重要關鍵字符記為第二字符串,所述重要關鍵字符為新增、替換或者修改后會改變試題含義或者類型的字符;
計算所述第一字符串和所述第二字符串之間的加權編輯距離,所述加權編輯距離為所述第一字符串和所述第二字符串之間相互轉化的最少的加權操作次數;
根據所述加權編輯距離計算所述待聚類試題與所述聚類中心試題之間的相似度,其中,相似度r的計算公式為:
r=(sum-dist)/sum,其中,sum為所述第一字符串和所述第二字符串的長度總和,dist為所述加權編輯距離;
將相似度大于預設閾值的所述待聚類試題與所述聚類中心試題歸為同一試題類。
可選的,在所有參與聚類的試題中選取聚類中心試題的步驟之前,還包括:
統一試題格式,其中,包括:
對包含不同字符格式或者公式圖片的htm試題文件進行分類識別和內容解析,轉換成latex試題文本;
將latex試題文本轉換成可正常閱讀的文本格式。
可選的,在所有參與聚類的試題中選取聚類中心試題的步驟具體包括:
根據試題的創建時間和試題的質量評價,對所有參與聚類的試題進行排序;
選擇排序為第一位的試題作為所述聚類中心試題。
可選的,確定所述聚類中心試題的重要關鍵字符記為第一字符串,確定待聚類試題的重要關鍵字符記為第二字符串的步驟包括:
采用詞頻-逆文檔頻度模型構建重要關鍵字字符庫;
根據所述重要關鍵字字符庫確定所述第一字符串和所述第二字符串。
可選的,所述加權編輯距離的操作包括:插入、刪除、替換;其中,在計算加權操作次數時:刪除記為一次操作,插入記為一次操作,替換記為兩次操作。
第二方面,本發明還提供一種試題的去重方法,包括:采用本發明提供的任意一種試題的聚類方法對待去重試題組中的試題進行聚類處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇曲速教育科技有限公司,未經江蘇曲速教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910680927.7/2.html,轉載請聲明來源鉆瓜專利網。





