[發明專利]一種試題自動標注錄入方法在審
| 申請號: | 202010032609.2 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111209728A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 楊立春;夏德虎;張志發;趙夢凱;鞏稼民;蔣杰偉;張凱澤;楊紅蕊;馬豆豆;劉愛萍 | 申請(專利權)人: | 深圳市企鵝網絡科技有限公司;西安郵電大學 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/151;G06F40/284 |
| 代理公司: | 廣州潤禾知識產權代理事務所(普通合伙) 44446 | 代理人: | 林偉斌;歐秋望 |
| 地址: | 518000 廣東省深圳市南山區西麗街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 試題 自動 標注 錄入 方法 | ||
1.一種試題自動標注錄入方法,其特征在于,包括:
S1.接收word試題文檔,將word試題文檔自動轉換成對應的html文檔并存儲所述html文檔;
S2.自動提取html文檔的文本內容;
S3.對所述提取的文本內容進行詞語分割及對分割后的詞語進行詞性標注并標注詞語在文本中的位置;
S4.對所述標注好詞性的詞語進行試題特征提取,判斷所述詞語的特征是否與預設的試題關鍵字的特征對應,是則對所述詞語進行關鍵字標注,將標注為關鍵字的詞語作為確定的關鍵字;
S5.根據確定的關鍵字對試題進行逐題分割,并存儲每道試題的關鍵字;
S6.根據逐題分割好的關鍵字及所述關鍵字在文本中的位置在試題構造模塊中對試題進行組裝,并根據關鍵字及所述關鍵字在文本中的位置將組裝好的試題存儲到對應的位置。
2.根據權利要求1所述的一種試題自動標注錄入方法,其特征在于,所述步驟S1中將word試題文檔自動轉換成對應的html文檔的同時還包括將文檔內的公式轉換成圖片并記錄所述圖片在文檔中對應的位置標簽,將所述圖片及其對應的位置標簽與html文檔存儲在同一個文件夾中。
3.根據權利要求2所述的一種試題自動標注錄入方法,其特征在于,所述步驟S2中還包括提取所述圖片的位置標簽并在文本中標記圖片的對應位置。
4.根據權利要求1所述的一種試題自動標注錄入方法,其特征在于,所述步驟S4中判斷所述詞語的特征是否與預設的試題關鍵字的特征對應具體為采用多層正則表達式對所述詞語進行試題特征提取,判斷所述詞語是否與預設的試題關鍵字特征對應,是則對所述詞語進行關鍵字標注,將標注為關鍵字的詞語作為確定的關鍵字。
5.根據權利要求4所述的一種試題自動標注錄入方法,其特征在于,所述步驟S4中還包括對所述標注為關鍵字的詞語進行二次篩選。
6.根據權利要求1所述的一種試題自動標注錄入方法,其特征在于,所述確定的關鍵字包括題號、選項、答案和解析其中的一個或多個。
7.根據權利要求6所述的一種試題自動標注錄入方法,其特征在于,所述步驟S6中根據確定的關鍵字對試題進行逐題分割具體為以題號關鍵字為判斷依據,若兩個題號關鍵字之間包含了答案關鍵字和/或解析關鍵字,則對試題進行分割;若一個題號關鍵字和下一個題號關鍵字之間沒有答案關鍵字和/或解析關鍵字則將下一個題號關鍵字標記為干擾。
8.根據權利要求5所述的一種試題自動標注錄入方法,其特征在于,對所述標注的關鍵字進行二次篩選具體為將單個試題中所有關鍵字通過隨機變異算法進行關鍵字組合并計算所有關鍵字組合的分值,選取分值最高的組合的關鍵字作為確定的關鍵字。
9.根據權利要求1或8所述的一種試題自動標注錄入方法,其特征在于,所述步驟S6還包括將確定的關鍵字在不同類型的試題構造模塊中進行試題組裝,并計算組裝之后的試題在不同類型的試題構造模塊中的分值,對同一試題在不同類型的試題構造模塊中的分值進行比較,將分值最高的試題構造模塊的類型作為所述試題的類型,并對所述試題的類型進行標注。
10.根據權利要求2所述的一種試題自動標注錄入方法,其特征在于,所述步驟S6還包括查找試題中的圖片的位置標簽,將試題中包含的圖片存儲到對應位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市企鵝網絡科技有限公司;西安郵電大學,未經深圳市企鵝網絡科技有限公司;西安郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010032609.2/1.html,轉載請聲明來源鉆瓜專利網。





