[發明專利]試題去重方法及裝置在審
| 申請號: | 201810458742.7 | 申請日: | 2018-05-14 |
| 公開(公告)號: | CN108664630A | 公開(公告)日: | 2018-10-16 |
| 發明(設計)人: | 蘭濤 | 申請(專利權)人: | 廣西英騰教育科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 545000 廣西壯族自治區柳州市柳*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 試題 文本內容 預設 文本相似度 相似度 去重 去重操作 人工審核 去除 申請 重復 | ||
本申請公開了一種試題去重方法及裝置。該方法包括獲取第一試題;判斷所述第一試題的字符長度與第二試題的字符長度的字符長度相似度是否超過第一預設比例;如果判斷所述第一試題的字符長度與第二試題的字符長度的字符長度相似度超過第一預設比例,則判斷所述第一試題的文本內容與所述第二試題的文本內容的文本相似度是否超過第二預設比例;如果判斷所述第一試題的文本內容與所述第二試題的文本內容的文本相似度超過第二預設比例,則執行人工審核去重操作。本申請解決了無法快速有效的去除重復試題的技術問題。
技術領域
本申請涉及文本去重技術領域,具體而言,涉及一種試題去重方法及裝置。
背景技術
隨著信息技術的發展,電子出版物越來越多。有試題內容的出版社或者培訓機構就會設立題庫中心。對于大的題庫中心,里面的試題量達到百萬級別,如何找出重復的試題卻不是一項容易的工作,因為(1)試題量太大,幾乎不可能通過人工去比對;(2)由于文字表述方式的差異,很難通過簡單的字符對比來篩選,這樣的方法只能去除一小部分完成重復的試題。下面對如何有效快捷去除重復的試題,提出了一個解決辦法。
針對相關技術中無法快速有效的去除重復試題的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種試題去重方法及裝置,以解決無法快速有效的去除重復試題問題。
為了實現上述目的,根據本申請的一個方面,提供了一種試題去重方法。
根據本申請的試題去重方法包括:獲取第一試題;判斷所述第一試題的字符長度與第二試題的字符長度的字符長度相似度是否超過第一預設比例;如果判斷所述第一試題的字符長度與第二試題的字符長度的字符長度相似度超過第一預設比例,則判斷所述第一試題的文本內容與所述第二試題的文本內容的文本相似度是否超過第二預設比例;如果判斷所述第一試題的文本內容與所述第二試題的文本內容的文本相似度超過第二預設比例,則執行人工審核去重操作。
進一步地,判斷所述第一試題的文本內容與所述第二試題的文本內容的文本相似度是否超過第二預設比例包括:
統計所述第一試題的文本內容進行編輯操作后轉化為所述第二試題的文本內容的編輯操作次數;根據所述編輯操作次數得到第一相似度和第二相似度;判斷所述第一相似度是否大于所述第二相似度;如果所述第一相似度大于所述第二相似度,則判斷所述第二相似度超過第二預設比例。
進一步的,根據所述編輯操作次數得到第一相似度和第二相似度包括:根據所述第一試題的文本內容和所述第二試題的文本內容得到初始化矩陣;根據所述初始化矩陣得到所述第一試題的文本內容和所述第二試題的文本內容的距離;根據所述距離、所述第一試題的文本內容和所述第二試題的文本內容得到所述第一相似度和所述第二相似度。
進一步的,判斷所述第一試題的字符長度與第二試題的字符長度的字符長度相似度是否超過第一預設比例包括:根據所述第一試題的字符長度與所述第二試題的字符長度得到字符長度相似度;判斷所述字符長度相似度是否大于所述第一預設比例;如果所述字符長度相似度大于所述第一預設比例,則進行文本相似度的計算。
進一步的,所述試題去重方法還包括:如果判斷所述第一試題的文本內容與所述第二試題的文本內容的文本相似度超過第二預設比例,則將所述第一試題和所述第二試題保存為組;對所述組執行人工審核去重操作。
為了實現上述目的,根據本申請的另一方面,提供了一種試題去重裝置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西英騰教育科技股份有限公司,未經廣西英騰教育科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810458742.7/2.html,轉載請聲明來源鉆瓜專利網。





